CN110276439A - 基于注意力机制的时间序列预测方法、装置及存储介质 - Google Patents
基于注意力机制的时间序列预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110276439A CN110276439A CN201910382684.9A CN201910382684A CN110276439A CN 110276439 A CN110276439 A CN 110276439A CN 201910382684 A CN201910382684 A CN 201910382684A CN 110276439 A CN110276439 A CN 110276439A
- Authority
- CN
- China
- Prior art keywords
- lstm
- moment
- encoder
- decoder
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本方案涉及人工智能,提供基于注意力机制的时间序列预测方法、装置及计算机可读存储介质,方法包括:采集目标站点和周边站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,利用LSTM编码器、LSTM解码器进行预测,并对解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数;利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。本发明在Attention机制中增加了虚拟反馈的机制来更新LSTM编码器、LSTM解码器的参数,可以提高参数更新的准确性。
Description
技术领域
本发明涉及人工智能,具体地说,涉及一种基于注意力机制的时间序列预测方法、装置及计算机可读存储介质。
背景技术
目前使用在时序数据的模型主要是RNN(递归神经网络)模型,如LSTM(长短时记忆模型),GRU(门递归神经网络),以及基于RNN网络的Seq2Seq模型。对于长时间建模问题,现有的通用做法为LSTM模型配合Attention(注意力)机制对长时间序列进行建模。Attention机制的本质为模拟人的注意力,将模型输入赋予不同的权重,然后再输入到模型中。然而,现有Attention的计算都是基于过去的LSTM单元状态得到的,均没有对现在的情况进行模拟,这一点与人类的习惯相悖。人类在复杂环境中,会根据过去的信息对现在的情况进行模拟推断,根据推断结果来决定注意力放在哪里。
目前使用在时序数据的模型主要是RNN(递归神经网络)模型,如LSTM(长短时记忆模型),GRU,以及基于RNN网络的Seq2Seq模型。对于长时间建模问题,现有的通用做法为LSTM模型配合Attention(注意力)机制对长时间序列进行建模。但是现有的Attention没有反馈机制,得到的注意力系数可能不是最优的,因而使得基于时间序列数据的预测结果误差较大。
发明内容
为解决以上技术问题,本发明提供一种基于注意力机制的时间序列预测方法,应用于电子装置,包括:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据作为LSTM编码器的输入张量,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出;
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数;
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有基于注意力机制的时间序列预测程序,所述基于注意力机制的时间序列预测程序被所述处理器执行时实现如下步骤:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出;
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数;
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的基于注意力机制的时间序列预测方法。
本发明在Attention机制中增加了虚拟反馈的机制来更新LSTM编码器、LSTM解码器的参数,可以提高参数更新的准确性,进而提高预测的准确性。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是本发明实施例的基于注意力机制的时间序列预测方法的流程示意图;
图2是在LSTM编码器中第一注意力权重对时间序列进行加权处理的示意图;
图3是本发明实施例的电子装置的硬件架构示意图;
图4是本发明实施例的基于注意力机制的时间序列预测程序的模块构成图。
具体实施方式
下面将参考附图来描述本发明所述的基于注意力机制的时间序列预测方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明实施例提供的基于注意力机制的时间序列预测方法的流程示意图。该方法应用于电子装置,包括以下步骤:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,作为LSTM编码器的输入张量,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM单元t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出(虚拟反馈),
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出(虚拟反馈),
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出。
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值。
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数。
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
进一步地,LSTM编码器的工作流程如下:
假设当前时刻为t时刻,有t-1时刻LSTM编码器的输出ht-1,st-1以及所有时刻的输入张量X=(x1,x2,…,xN),采用如下方式计算t时刻LSTM编码器的虚拟输出(其中对应的第一注意力权重对时间序列进行加权处理的示意图如图2所示,其他步骤中利用注意力权重进行加权处理也类似图2):
其中:
t为t时刻;
hvirtual和svirtual为t时刻LSTM编码器的虚拟输出;
R为LSTM编码器操作;
ht-1是t-1时刻LSTM编码器的输出;
是加上第一注意力权重之后的时间序列;
st-1是ht-1对应的t-1时刻的标签;
是第一注意力权重,用于对时间序列进行加权处理;
是ht-1与xk的关系分数;
ht-1与xi的关系分数;
是第N个输入在LSTM编码器里的时间序列的第t个值;
为时间序列的第k个输入的时间序列;
We和Ue是可训练的参数;
tanh是激活函数。
进一步地,使用LSTM编码器的虚拟输出计算第二注意力权重的公式如下:
是加上第二注意力权重之后的时间序列;
是第二注意力权重;
是hvirtual与xk关系分数;
是hvirtual与xi关系分数;
t时刻LSTM编码器的最终输出为
进一步地,步骤2对应的公式如下:
其中vd,Wd and Ud为可学习的参数;
为LSTM解码器的虚拟输出;
hi为LSTM编码器的输出的第i个分量;
是第三注意力权重;
是加上第三注意力权重之后的LSTM编码器的输出;
dt-1是t-1时刻LSTM解码器的输出;
是dt-1对应的t-1时刻的标签;
是dt-1与hi的关系分数;
是dt-1与hk的关系分数;
Wd,Ud是可训练的参数;
获取LSTM解码器的虚拟输出,计算第四注意力权重,并将第四注意力权重与LSTM编码器的输出做加权和,其公式如下:
其中,是第四注意力权重;
是dvirtual与hi的关系分数;
是dvirtual与hk的关系分数;
ct是加上第四注意力权重之后的LSTM编码器的输出;
然后,将第四注意力权重与LSTM编码器的最终输出加权处理的结果与前一时刻的LSTM编码器的最终输出进行拼接,然后输入解码器进行运算,输出结果:
进一步地,将LSTM解码器的最终输出结果进行如下的线性变换,输出最终的预测值,其对应的公式如下:
其中vy、Wy、bw、by为可训练的参数;
为线性变换的结果。
进一步地,采用均方误差损失函数和SMAPE函数构建损失函数,其公式如下:
其中N为一批训练数据的个数;
为第i个训练标签。
进一步地,采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据包括以下步骤:
步骤S20首先,获取目标站点和周边每个站点的待预测信息的历史数据和影响待预测信息的影响因素信息。以北京市的35个空气质量监测站点为例,设法获取到了这35个监测站点附近的气象数据,以奥体中心站点为目标站点。对应每个监测站点,获得PM2.5、PM10、O3、NO2、SO2、CO六种主要污染物信息(即待预测信息)和温度、气压、相对湿度、风速、风向、天气状况等六种气象信息(即影响待预测信息的影响因素信息)。下面仅以奥体中心站点的PM2.5作为待预测信息来说明。
然后将奥体中心站点的污染物信息PM2.5浓度加上六种气象信息(共7个特征值)作为模型输入,送入CNN模块进行特征提取。然后通过Attention模块,获取这7种特征对待预测信息未来变化趋势的影响大小。至此得到了奥体中心站点7种特征值对目标污染物的影响力大小,在此称为local Attention。
步骤S30,然后将剩下的34个站点(即周边每个站点)的PM2.5浓度加上相应站点的六种气象信息作为模型输入,送入CNN模块进行特征提取。之后,同样通过Attention模块,并结合这34个站点与奥体中心站点之间的相关性大小(包括距离因素及线性相关度),获取34个站点的不同特征对目标污染物的贡献度。从而得到了余下34个站点不同特征对奥体中心站点PM2.5的影响力大小,在此称为global Attention。
global Attention不仅可以反映不同站点的影响力,还可以具体到该站点的主要影响特征,如B站点温度变化对目标站点影响更大,而C站点的风速对目标站点影响力更大。
将步骤S20、步骤S30获取的加入Attention的特征信息进行合并,并送入CNN模型进行特征提取,获取隐藏层输出H,其代表了从历史时间、空间信息中抽象出的影响力因素,即为整理的时序数据X=(x1,x2,…,xN),作为LSTM编码器的输入张量。
在一个可选实施例中,时序数据包括三个维度,第一个维度为数据的个数信息,第二个维度为数据的时间维度,第三个维度为特征的个数,所述特征包括影响因素信息和待预测信息,所述影响因素信息包括温度、气压、相对湿度、风速、风向、天气状况六种天气信息,所述待预测信息为污染物信息。
在一个可选实施例中,所述污染物信息是PM2.5、PM10、O3、NO2、SO2、CO六种污染物信息中的一种或多种。
参阅图3所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述电子装置2至少包括,但不限于,可通过***总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作***和各类应用软件,例如所述基于注意力机制的时间序列预测程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的基于注意力机制的时间序列预测程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图3仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作***、基于注意力机制的时间序列预测程序50等。处理器22执行存储器21中基于注意力机制的时间序列预测程序50时实现如下步骤:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM单元t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出。
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出。
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值。
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数。
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
在本实施例中,存储于存储器21中的所述基于注意力机制的时间序列预测程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图4示出了所述基于注意力机制的时间序列预测程序的程序模块示意图,该实施例中,所述基于注意力机制的时间序列预测程序50可以被分割为信息采集模块501、注意力权重获取模块502、线性变换模块503、损失计算模块504、预测模块505。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于注意力机制的时间序列预测程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
信息采集模块501用于采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据。
注意力权重获取模块502利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM单元t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
注意力权重获取模块502还将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
注意力权重获取模块502还利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
注意力权重获取模块502gauntlet将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出;
线性变换模块503用于将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;
损失计算模块504用于构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数。
预测模块505利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括基于注意力机制的时间序列预测程序等,所述基于注意力机制的时间序列预测程序50被处理器22执行时实现如下操作:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM单元t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出(虚拟反馈),
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出(虚拟反馈),
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出。
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值。
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数。
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
本发明之计算机可读存储介质的具体实施方式与上述基于注意力机制的时间序列预测方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于注意力机制的时间序列预测方法,应用于电子装置,其特征在于,包括:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据作为LSTM编码器的输入张量,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出;
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数;
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
2.根据权利要求1所述的基于注意力机制的时间序列预测方法,其特征在于:LSTM编码器的工作流程如下:
假设当前时刻为t时刻,有t-1时刻LSTM编码器的输出ht-1,st-1以及所有时刻的输入张量X=(x1,x2,…,xN),采用如下方式计算t时刻LSTM编码器的虚拟输出:
hvirtual,
其中:
t为t时刻;
hvirtual和svirtual为t时刻LSTM编码器的虚拟输出;
R为LSTM编码器操作;
ht-1是t-1时刻LSTM编码器的输出;
是加上第一注意力权重之后的时间序列;
st-1是ht-1对应的t-1时刻的标签;
是第一注意力权重,用于对时间序列进行加权处理;
是ht-1与xk的关系分数;
与xi的关系分数;
是第N个输入在LSTM编码器里的时间序列的第t个值;
为时间序列的第k个输入的时间序列;
We和Ue是可训练的参数;
tanh是激活函数。
3.根据权利要求2所述的基于注意力机制的时间序列预测方法,其特征在于:使用LSTM编码器的虚拟输出计算第二注意力权重的公式如下:
是加上第二注意力权重之后的时间序列;
是第二注意力权重;
是hvirtual与xk关系分数;
是hvirtual与xi关系分数;
t时刻LSTM编码器的最终输出为
ht,
4.根据权利要求3所述的基于注意力机制的时间序列预测方法,其特征在于:步骤2公式如下:
dvirtual,
其中vd,Wd和Ud为可学习的参数;
dvirtual,为LSTM解码器的虚拟输出;
hi为LSTM编码器的输出的第i个分量;
是第三注意力权重;
是加上第三注意力权重之后的LSTM编码器的最终输出;
dt-1是t-1时刻LSTM解码器的输出;
是dt-1对应的t-1时刻的标签;
是dt-1与hi的关系分数;
是dt-1与hk的关系分数;
Wd,Ud是可训练的参数;
获取LSTM解码器的虚拟输出,计算第四注意力权重,并将第四注意力权重与LSTM编码器的最终输出做加权和,其公式如下:
其中,是第四注意力权重;
是dvirtual与hi的关系分数;
是dvirtual与hk的关系分数;
ct是加上第四注意力权重之后的LSTM编码器的最终输出;
然后,将第四注意力权重与LSTM编码器的最终输出加权处理的结果与前一时刻的LSTM编码器的最终输出进行拼接,然后输入解码器进行运算,输出结果:
dt,
5.根据权利要求4所述的基于注意力机制的时间序列预测方法,其特征在于:
将LSTM解码器的最终输出结果进行如下的线性变换,输出最终的预测值,其对应的公式如下:
其中vy、Wy、bw、by为可训练的参数;
为线性变换的结果。
6.根据权利要求5所述的基于注意力机制的时间序列预测方法,其特征在于:
采用均方误差损失函数和SMAPE函数构建损失函数,其公式如下:
其中N为一批训练数据的个数;
为第i个训练标签。
7.根据权利要求1所述的基于注意力机制的时间序列预测方法,其特征在于:
时序数据包括三个维度,第一个维度为数据的个数信息,第二个维度为数据的时间维度,第三个维度为特征的个数,所述特征包括影响因素信息和待预测信息,所述影响因素信息包括温度、气压、相对湿度、风速、风向、天气状况六种天气信息,所述待预测信息为污染物信息。
8.根据权利要求7所述的基于注意力机制的时间序列预测方法,其特征在于:
所述污染物信息是PM2.5、PM10、O3、NO2、SO2、CO六种污染物信息中的一种或多种。
9.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有基于注意力机制的时间序列预测程序,所述基于注意力机制的时间序列预测程序被所述处理器执行时实现如下步骤:
1)采集目标站点和周边每个站点的待预测信息的历史信息以及影响待预测信息的影响因素信息,整理为时序数据,利用LSTM编码器的t-1时刻的输出、所有时刻的输入张量计算第一注意力权重,利用第一注意力权重对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第一注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的虚拟输出,
将t时刻LSTM编码器的虚拟输出输入到LSTM编码器,利用t时刻LSTM编码器的虚拟输出以及所有时刻的输入张量计算第二注意力权重,利用第二注意力权重再次对时序数据进行加权处理,并将LSTM编码器t-1时刻的输出与经过第二注意力权重加权处理的时序数据输入LSTM编码器,得到t时刻LSTM编码器的最终输出;
2)利用LSTM编码器的所有最终输出、LSTM解码器t-1时刻的输出计算第三注意力权重,将第三注意力权重与LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出、经过第三注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻的LSTM解码器的虚拟输出,
将t时刻的LSTM解码器的虚拟输出输入到LSTM解码器,利用t时刻的LSTM解码器的虚拟输出、LSTM编码器的所有最终输出计算第四注意力权重,利用第四注意力权重再次对LSTM编码器的最终输出做加权处理,
并将LSTM解码器t-1时刻的输出与经过第四注意力权重加权处理的LSTM编码器的最终输出输入到LSTM解码器,得到t时刻解码器的最终输出;
3)将解码器的最终输出结果进行线性变换,输出目标站点的待预测信息的预测值;
4)构建损失函数,对损失函数采用梯度下降法进行训练,更新LSTM编码器、LSTM解码器的参数;
5)利用更新的LSTM编码器、LSTM解码器对目标站点的待预测信息进行预测。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至8中任一项所述的基于注意力机制的时间序列预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910382684.9A CN110276439A (zh) | 2019-05-08 | 2019-05-08 | 基于注意力机制的时间序列预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910382684.9A CN110276439A (zh) | 2019-05-08 | 2019-05-08 | 基于注意力机制的时间序列预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110276439A true CN110276439A (zh) | 2019-09-24 |
Family
ID=67959757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910382684.9A Pending CN110276439A (zh) | 2019-05-08 | 2019-05-08 | 基于注意力机制的时间序列预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276439A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647354A (zh) * | 2019-09-30 | 2020-01-03 | 东软医疗***股份有限公司 | 设备运行控制方法、装置及设备 |
CN110751317A (zh) * | 2019-09-26 | 2020-02-04 | 上海电力大学 | 一种电力负荷预测***及预测方法 |
CN110929869A (zh) * | 2019-12-05 | 2020-03-27 | 同盾控股有限公司 | 注意力模型的训练方法、装置、设备及存储介质 |
CN110956341A (zh) * | 2019-12-31 | 2020-04-03 | 京东城市(北京)数字科技有限公司 | 停车场流量预测方法、装置、电子设备及存储介质 |
CN111080032A (zh) * | 2019-12-30 | 2020-04-28 | 成都数之联科技有限公司 | 一种基于Transformer结构的负荷预测方法 |
CN111160628A (zh) * | 2019-12-13 | 2020-05-15 | 重庆邮电大学 | 一种基于CNN和双注意力seq2seq的空气污染物浓度预测方法 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN111652437A (zh) * | 2020-06-04 | 2020-09-11 | 上海眼控科技股份有限公司 | 跑道视程预测值获取方法、计算机设备和存储介质 |
CN111754097A (zh) * | 2020-06-18 | 2020-10-09 | 上海交通大学 | 基于多视图编码器-解码器架构的学生成绩预测*** |
CN111950784A (zh) * | 2020-08-04 | 2020-11-17 | 广东工业大学 | 一种融合注意力机制的产能预测方法 |
CN112465273A (zh) * | 2020-12-25 | 2021-03-09 | 湖北汽车工业学院 | 一种基于局部注意力机制的无人车轨迹预测方法 |
CN113408780A (zh) * | 2021-04-29 | 2021-09-17 | 西安交通大学 | 汽车未来保值率预测方法、***、设备及可读存储介质 |
CN113537539A (zh) * | 2020-04-14 | 2021-10-22 | 天津科技大学 | 一种基于注意力机制的多时间步供热用气量预测模型 |
CN113923042A (zh) * | 2021-10-26 | 2022-01-11 | 南京邮电大学 | 一种恶意软件滥用DoH的检测识别***及方法 |
CN114692941A (zh) * | 2021-12-30 | 2022-07-01 | 江南大学 | 基于多注意力的公司财务预测方法 |
CN117094452A (zh) * | 2023-10-20 | 2023-11-21 | 浙江天演维真网络科技股份有限公司 | 干旱状态预测方法、干旱状态预测模型的训练方法及设备 |
-
2019
- 2019-05-08 CN CN201910382684.9A patent/CN110276439A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751317A (zh) * | 2019-09-26 | 2020-02-04 | 上海电力大学 | 一种电力负荷预测***及预测方法 |
CN110647354A (zh) * | 2019-09-30 | 2020-01-03 | 东软医疗***股份有限公司 | 设备运行控制方法、装置及设备 |
CN110929869B (zh) * | 2019-12-05 | 2021-09-07 | 同盾控股有限公司 | 序列数据处理方法、装置、设备及存储介质 |
CN110929869A (zh) * | 2019-12-05 | 2020-03-27 | 同盾控股有限公司 | 注意力模型的训练方法、装置、设备及存储介质 |
CN111160628A (zh) * | 2019-12-13 | 2020-05-15 | 重庆邮电大学 | 一种基于CNN和双注意力seq2seq的空气污染物浓度预测方法 |
CN111080032A (zh) * | 2019-12-30 | 2020-04-28 | 成都数之联科技有限公司 | 一种基于Transformer结构的负荷预测方法 |
CN111080032B (zh) * | 2019-12-30 | 2023-08-29 | 成都数之联科技股份有限公司 | 一种基于Transformer结构的负荷预测方法 |
CN110956341A (zh) * | 2019-12-31 | 2020-04-03 | 京东城市(北京)数字科技有限公司 | 停车场流量预测方法、装置、电子设备及存储介质 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN111414749B (zh) * | 2020-03-18 | 2022-06-21 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN113537539B (zh) * | 2020-04-14 | 2023-04-07 | 天津科技大学 | 一种基于注意力机制的多时间步供热用气量预测模型 |
CN113537539A (zh) * | 2020-04-14 | 2021-10-22 | 天津科技大学 | 一种基于注意力机制的多时间步供热用气量预测模型 |
CN111652437A (zh) * | 2020-06-04 | 2020-09-11 | 上海眼控科技股份有限公司 | 跑道视程预测值获取方法、计算机设备和存储介质 |
CN111754097A (zh) * | 2020-06-18 | 2020-10-09 | 上海交通大学 | 基于多视图编码器-解码器架构的学生成绩预测*** |
CN111950784A (zh) * | 2020-08-04 | 2020-11-17 | 广东工业大学 | 一种融合注意力机制的产能预测方法 |
CN111950784B (zh) * | 2020-08-04 | 2023-06-09 | 广东工业大学 | 一种融合注意力机制的产能预测方法 |
CN112465273A (zh) * | 2020-12-25 | 2021-03-09 | 湖北汽车工业学院 | 一种基于局部注意力机制的无人车轨迹预测方法 |
CN112465273B (zh) * | 2020-12-25 | 2022-05-31 | 湖北汽车工业学院 | 一种基于局部注意力机制的无人车轨迹预测方法 |
CN113408780B (zh) * | 2021-04-29 | 2023-06-16 | 西安交通大学 | 汽车未来保值率预测方法、***、设备及可读存储介质 |
CN113408780A (zh) * | 2021-04-29 | 2021-09-17 | 西安交通大学 | 汽车未来保值率预测方法、***、设备及可读存储介质 |
CN113923042A (zh) * | 2021-10-26 | 2022-01-11 | 南京邮电大学 | 一种恶意软件滥用DoH的检测识别***及方法 |
CN113923042B (zh) * | 2021-10-26 | 2023-09-15 | 南京邮电大学 | 一种恶意软件滥用DoH的检测识别***及方法 |
CN114692941A (zh) * | 2021-12-30 | 2022-07-01 | 江南大学 | 基于多注意力的公司财务预测方法 |
CN117094452A (zh) * | 2023-10-20 | 2023-11-21 | 浙江天演维真网络科技股份有限公司 | 干旱状态预测方法、干旱状态预测模型的训练方法及设备 |
CN117094452B (zh) * | 2023-10-20 | 2024-02-06 | 浙江天演维真网络科技股份有限公司 | 干旱状态预测方法、干旱状态预测模型的训练方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276439A (zh) | 基于注意力机制的时间序列预测方法、装置及存储介质 | |
CN109978228A (zh) | 一种pm2.5浓度预测方法、装置及介质 | |
CN109902222A (zh) | 一种推荐方法及装置 | |
CN111401433A (zh) | 用户信息获取方法、装置、电子设备及存储介质 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN110377814A (zh) | 题目推荐方法、装置及介质 | |
CN107797989A (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN110136841A (zh) | 疾病发病预测方法、装置及计算机可读存储介质 | |
CN114372620A (zh) | 基于轨迹预测的目标人员动态风险预警方法及相关设备 | |
CN112801706B (zh) | 一种游戏用户行为数据挖掘方法及*** | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
CN117093477A (zh) | 一种软件质量评估方法、装置、计算机设备及存储介质 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN117235633A (zh) | 机构分类方法、装置、计算机设备及存储介质 | |
CN110674020B (zh) | App智能推荐方法、装置及计算机可读存储介质 | |
CN117312979A (zh) | 对象分类方法、分类模型训练方法及电子设备 | |
CN116703466A (zh) | 基于改进灰狼算法的***访问量预测方法及其相关设备 | |
CN111445271A (zh) | 模型生成方法、作弊酒店的预测方法、***、设备和介质 | |
CN113255563B (zh) | 一种景区人流控制***及方法 | |
CN114707633B (zh) | 特征提取方法、装置、电子设备和存储介质 | |
CN116541689A (zh) | 多模态数据采集与标注方法、装置、计算机设备 | |
CN113722437B (zh) | 基于人工智能的用户标签识别方法、装置、设备及介质 | |
CN112257908B (zh) | 一种山区农业多源异构数据的整合方法及装置 | |
CN111178630A (zh) | 一种负荷预测方法及装置 | |
CN115640896B (zh) | 多用户场景下的家庭用户电力负荷预测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |