CN113095550A - 基于变分递归网络和自注意力机制的空气质量预测方法 - Google Patents

基于变分递归网络和自注意力机制的空气质量预测方法 Download PDF

Info

Publication number
CN113095550A
CN113095550A CN202110322814.7A CN202110322814A CN113095550A CN 113095550 A CN113095550 A CN 113095550A CN 202110322814 A CN202110322814 A CN 202110322814A CN 113095550 A CN113095550 A CN 113095550A
Authority
CN
China
Prior art keywords
data
prediction
hidden layer
encoder
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110322814.7A
Other languages
English (en)
Other versions
CN113095550B (zh
Inventor
刘博�
李依楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110322814.7A priority Critical patent/CN113095550B/zh
Publication of CN113095550A publication Critical patent/CN113095550A/zh
Application granted granted Critical
Publication of CN113095550B publication Critical patent/CN113095550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Optimization (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Geometry (AREA)

Abstract

本发明公开了一种基于变分递归神经网络和自注意力机制的空气质量预测方法,该方法包括如下步骤:获取空气质量数据和天气数据并预处理,构建输入数据和输出数据。编码器的输入数据包括污染物数据和历史气象数据。解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据。将数据分割为训练数据和测试数据。使用训练数据对Seq2Seq模型进行训练:使用测试数据测试预测结果。本发明使用Seq2Seq模型对空气质量进行预测。首先在编码器的输入阶段引入了自注意力机制,从而实现了选取特征因子和把握长期时须依赖关系,在模型中使用VRNN代替解码器的RNN,进一步捕获输出端不同时间步之间复杂的依赖关系,有效减少误差积累从而提高预测精度。

Description

基于变分递归网络和自注意力机制的空气质量预测方法
技术领域
本发明属于数据挖掘技术领域,主要用于建立空气质量预测模型。
背景技术
近些年来,由于我国社会经济和工业化的快速发展,城市化进程的不断加快,能源结构不合理等背后带来的空气污染问题给人们的日常生活和工作造成了严重的影响。空气质量问题受到人们高度关注,因此当前一个十分紧迫的研究问题是在环境污染天气来临之前准确预测,采取相应的措施加以预防来降低恶劣环境带来的危害。空气质量的准确预测研究结果,不仅可以对空气污染的变化趋势有更直观的把控,还可以对城市环境污染治理、城市建设和公共卫生等领域都具有重要的指导意义、近几十年来,有诸多学者致力于空气质量的预测研究,由于大气环境***是一个复杂、多变的***,传统的预报模型难以在海量的历史监测数据中捕捉到有效信息而导致预测效果不理想。近年来深度学习方法在各类时间序列预测问题上被广泛应用,经过逐步发展从RNN(RecurrentNeural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)再到Seq2Seq(Sequence-to-Sequence,序列到序列),现在的主流模型是Seq2Seq,对于空气质量预测这种时间序列预测问题也非常适合,因为空气质量预测的任务是利用历史污染物和天气信息序列得到未来一段时间的污染物序列。目前的研究一般会采用Seq2Seq和注意力机制。但是目前的研究存在两个问题,一个是Seq2Seq的训练速度太慢,因为一般使用深度学习预测空气质量会对每一个监测站都建立一个模型,而且这样的统计模型会随着时间的推移预测精度变低,往往过一段时间需要重新训练,如果大量模型同时训练会消耗大量的时间,因此需要对训练进行提速。另一个是由于空气质量数据是时空异质性数据,同时也存在大量噪声,目前的主流模型无法对预测数据的高度可变性建模,因此预测的精度扰动极大,进而引起预测精度低的问题。
发明内容
本发明的目的在于要解决Seq2Seq模型训练速度慢的问题,并且引入潜在语义变量捕捉预测时间步的强依赖关系从而提高预测精度。
对于Seq2Seq训练慢的问题,其根源在于RNN的训练速度慢,因为RNN每个时间步的计算都需要等待上一个时间步结束,因此无法并行计算。而且RNN的序列编码在处理长距离依赖关系时,由于梯度消失问题只适合短距离依赖关系。建立输入序列之间的长距离依赖关系,可以使用全连接网络,但是其无法处理变长序列,所以使用可以动态生成权重的注意力模型代替全连接层,并加入位置编码保留输入序列的时序信息。在每个时间步使用自注意力机制后,所有的时间步可以并行完成计算,并且可以处理变长序列,又因为自注意机制可以捕捉输入序列的依赖关系,所以可以有效提高训练速度。另外,对解码器应用VRNN递归预测,如图1所示。预测误差波动较大的原因在于空气质量数据是时空异质性数据,是高度结构化的数据,因环境噪声的扰动导致数据波动极大,预测前几个时间步的误差还相对较小,但由于是递归预测,越到后面的时间步,预测的输入是上一个时间步的预测结果,而上一个时间步也是有误差的,所以当前时间步的预测误差就会更大。而将解码器替换为VRNN,可以捕捉预测阶段不同时间步之间的潜在语义信息,考察不同时间步的内在关联,将潜在随机变量引入Seq2Seq模型指导隐层变量的生成过程,而预测输入又依赖于隐层状态,所以引入的潜在随机变量间接地影响了预测输出的生成。同时为了能够在深度学习环境下训练后验概率模型,采用神经网络和重参数方法来近似后验概率。这样在预测阶段不同时间步之间不仅可以相互约束,生成鲁棒、复杂的依赖关系模型,还可以捕获全局上下文语义,从而提升Seq2Seq模型性能,减少误差。
本发明采用的技术方案为一种基于变分递归网络和自注意力机制的空气质量预测方法,该方法包括如下步骤:
步骤1、获取空气质量数据和大气数据,对数据进行整理与清洗等预处理操作,构建输入数据和输出数据;编码器的输入数据包括污染物数据和历史气象数据;解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据;
步骤2、将数据分割为训练数据和测试数据;
步骤3、构建AVAQP模型,使用训练数据对AVAQP模型进行训练:
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态。
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态。
4)利用解码器隐藏层状态和编码器状态得到上下文向量。
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布。
6)构建损失函数并使用梯度下降算法优化
步骤4、使用测试数据测试预测结果。
本发明使用Seq2Seq模型对空气质量进行预测。使用自注意力模型代替编码器的RNN,并且使用位置编码保留输入序列的时序关系,从而达到保持预测精度的同时加速训练的效果。预测过程采用n-step递归预测,可以有效减少误差积累从而提高预测精度。
附图说明
图1为AVAQP训练的流程图
图2为GRU的内部结构图
图3为AVAQP单个解码时间步示意图
具体实施方式
以空气质量预测为例,以下是结合实例与附图对本发明的详细说明。
本发明使用一台PC机,并且需要拥有足够计算能力的GPU来加速训练。如图1所示,本发明提供的一种基于极限学习机的空气质量预测方法具体步骤如下:
步骤1、获取数据并预处理,构建输入与输出;
获取的数据一般包括空气质量数据和天气数据,需要将其处理为输入序列和输出序列,一般输入序列包括过去一段时间的污染物数据和天气数据。设D={X,Y}为处理之后的数据集。其中X为输入序列,即历史数据,包括污染物数据和天气数据。对于每一个输入序列x∈RS×Q,其长度为S,即过去S小时的历史数据,并且有Q个特征,即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度等天气数据。对于每个目标序列y∈RT,其长度为T,即未来T小时的污染物数据。实际应用中,y可以包含多个目标,如同时预测PM2.5,一氧化碳,二氧化硫等。
步骤2、将数据分割为训练数据和测试数据。
将步骤2中获取的样本分割为训练数据和和测试数据,训练数据用于训练模型,测试数据用于测试模型的效果。
步骤3、使用训练数据对AVAQP模型进行训练。
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态。
将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;将输入数据进行线性变换得到三组向量序列Q、K、V;分别为自注意力机制中的查询向量序列,键向量序列和值向量序列,由如下方式计算:
Q=WQ(X+PE)
K=(WKX+PE)
V=(WVX+PE)
其中WQ、WK、WV是可学习的参数矩阵,PE是位置编码矩阵,与输入数据维度相同;加入位置编码来补充序列位置信息;每一行对应一个输入序列。
将转换后的向量序列输入编码器,得到每个时刻的编码器的隐藏层状态;编码器的隐藏层状态由如下方式计算:
Figure BDA0002993485650000061
其中
Figure BDA0002993485650000062
是隐藏层的状态,i,j∈[1,N]分别是当前时间步序列与其他各序列的位置。连接权重αij由注意力机制动态生成;同时注意这里的激活函数使用的是tanh,要和解码器的激活函数保持一致,其定义为:
Figure BDA0002993485650000063
注意力打分函数使用缩放点积,可写为:
Figure BDA0002993485650000064
其中ds是人为设置的超参数,目的是为了让梯度更稳定。
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj;VRNN的关键在于对与潜在随机变量相关的分布进行建模。
后验概率和先验概率分别用两个神经网络拟合,其中后验概率模型可表示为
Figure BDA0002993485650000071
均值和方差计算公式为:
Figure BDA0002993485650000072
Figure BDA0002993485650000073
其中h是潜在随机变量的语义空间,通过非线性拟合方法来估计。先验概率模型与后验概率模型相似,但要注意它们之间的参数不共享。zτ的计算公式为:
zτ=μττ⊙∈
其中∈是引入的噪声,
Figure BDA0002993485650000074
使每一个时间步的zj非固定,进一步提高预测鲁棒性。
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;解码器采用门控循环单元GRU,GRU每个时刻的输出;首先需要计算GRU中更新门的值,更新门控制进入当前单元的信息;
第τ+1个时间步的更新门计算公式为:
Figure BDA0002993485650000075
其中uτ是更新门,Wu、Uu、Cu、Vu和bu分别表示更新们的权值和偏置,hτ表示上一时刻GRU的隐藏层状态,是上一时刻经过GRU处理后得到的特征,xτ+1表示当前时刻的输入数据,可以是yτ,即上一个时间步的预测结果;在有天气预报的情况下也可以将天气预报数据一并输入,即[yτ,wfτ],其中wfτ是当前时间步所需的天气预报数据;cτ是当前时刻计算的上下文变量;值得注意的是,zτ对解码器隐层状态的表征有很重要的影响,同时也能捕捉相邻时间步预测输出之间的特征;σ表示logistic函数,其定义如下:
Figure BDA0002993485650000081
接着计算重置门的值,重置门用来选择性遗忘以往的信息,如当前时刻起风了,则忘记之前没有起风的信息;重置门参数的意义和计算方式与更新门类似,其计算公式为:
rτ+1=σ(Wrhτ+Urxτ+1+Crcτ+Vrzτ+br)
接下来计算候补输出
Figure BDA0002993485650000082
它代表了上一步的信息和当前的信息融合得到的新的信息,其计算公式为:
Figure BDA0002993485650000083
此时重置门负责控制遗忘上一步得到的信息,logistic函数的值域是(0,1),因此重置门的取值范围也是(0,1);当重置门的取值接近0时,上一步的信息接近全部遗忘,达到重置的效果;当重置门的取值接近1时,上一步的信息几乎完全保留;
最后计算GRU隐藏层的状态,其计算公式如下:
Figure BDA0002993485650000084
更新门在此控制新的信息和上一步的信息所占的比例,当更新门取值接近1时,新的信息占比接近100%;当更新门的取值接近0时,上一步的信息占比接近100%。
4)利用解码器隐藏层状态和编码器状态得到上下文向量。注意力向量决定编码结果每个时刻的重要性,重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量。因此编码结果每个时刻的重要性可由如下公式计算:
Figure BDA0002993485650000091
在将结果归一化后就可以得到注意力向量:
Figure BDA0002993485650000092
aτ的每个元素便代表了编码结果每个时刻的重要性,值越大表示其对当前解码时刻影响越大。使用aτ为编码结果计算加权平均值即可得到上下文cτ,它代表了过去的污染物和气象数据对当前时刻预测有用的特征。最后即可由如下公式得到预测结果:
Figure BDA0002993485650000093
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布,定义为:
Figure BDA0002993485650000094
其中g为激活函数。
6)构建损失函数并使用梯度下降算法优化;对于深度学习模型训练时会采用小批量批量梯度下降,而且由于概率期望的存在,采用蒙特卡洛方法来近似期望。所以对于一个小批量的数据,其损失函数由如下公式计算:
Figure BDA0002993485650000101
其中L为一个小批量数据中的样本数量;最终可以使用梯度下降算法调整模型中的参数来最小化损失函数,而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。
步骤4、使用测试数据测试预测结果
将测试数据输入AVAQP模型中得到每个样本的预测序列,如果测试结果不够理想则调整神经网络的参数得到更好的结果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (5)

1.一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:该方法包括如下步骤:
步骤1、获取空气质量数据和大气数据,对数据进行整理与清洗预处理,构建输入数据和输出数据;编码器的输入数据包括污染物数据和历史气象数据;解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据;
步骤2、将数据分割为训练数据和测试数据;
步骤3、构建AVAQP模型,使用训练数据对AVAQP模型进行训练:
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;
4)利用解码器隐藏层状态和编码器状态得到上下文向量;
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布;
6)构建损失函数并使用梯度下降算法优化
步骤4、使用测试数据测试预测结果。
2.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:步骤1的实现过程如下,
通过python爬取的大气数据包括大气污染物数据和天气数据,对其进行预处理,包括删除重复值、填补缺失值等,再进行归一化处理分割为输入序列和输出序列;输入数据包括历史72小时的污染物数据和天气数据;;设D={X,Y}为处理之后的数据集;其中X为输入序列,即历史数据,包括污染物数据和天气数据;对于每一个输入序列x∈RS×Q,其长度为S,即过去S小时的历史数据,并且有Q个特征,即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度天气数据;对于每个目标序列y∈RT,其长度为T,即未来T小时的污染物数据;y包含多个目标。
3.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:将步骤2中获取的样本分割为训练数据和和测试数据,训练数据用于训练模型,测试数据用于测试模型的效果。
4.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:步骤3中,构建AVAQP模型,使用训练数据对AVAQP模型进行训练;
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;将输入数据进行线性变换得到三组向量序列Q、K、V;分别为自注意力机制中的查询向量序列,键向量序列和值向量序列,由如下方式计算:
Q=WQ(X+PE)
K=WK(X+PE)
V=WV(X+PE)
其中WQ、WK、WV是可学习的参数矩阵,PE是位置编码矩阵,与输入数据维度相同;加入位置编码来补充序列位置信息;每一行对应一个输入序列;
将转换后的向量序列输入编码器,得到每个时刻的编码器的隐藏层状态;编码器的隐藏层状态由如下方式计算:
Figure FDA0002993485640000031
其中
Figure FDA0002993485640000032
是隐藏层的状态,i,j∈[1,N]分别是当前时间步序列与其他各序列的位置;连接权重αij由注意力机制动态生成;
同时注意这里的激活函数使用的是tanh,要和解码器的激活函数保持一致,其定义为:
Figure FDA0002993485640000033
注意力打分函数使用缩放点积,写为:
Figure FDA0002993485640000034
其中ds是人为设置的超参数,目的是为了让梯度更稳定;
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj;VRNN的关键在于对与潜在随机变量相关的分布进行建模;后验概率和先验概率分别用两个神经网络拟合,其中后验概率模型表示为
Figure FDA0002993485640000041
均值和方差计算公式为:
Figure FDA0002993485640000042
Figure FDA0002993485640000043
其中h是潜在随机变量的语义空间,通过非线性拟合方法来估计;先验概率模型与后验概率模型相似,但要注意它们之间的参数不共享;zτ的计算公式为:
zτ=μττ⊙∈
其中∈是引入的噪声,
Figure FDA0002993485640000044
使每一个时间步的zj非固定,进一步提高预测鲁棒性;
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;解码器采用门控循环单元GRU,GRU每个时刻的输出;首先需要计算GRU中更新门的值,更新门控制进入当前单元的信息;
第τ+1个时间步的更新门计算公式为:
uτ+1=σ(Wuhτ+Uuxτ+1+Cucτ+Vuzτ+bu)
其中uτ是更新门,Wu、Uu、Cu、Vu和bu分别表示更新们的权值和偏置,hτ表示上一时刻GRU的隐藏层状态,是上一时刻经过GRU处理后得到的特征,xτ+1表示当前时刻的输入数据yτ,即上一个时间步的预测结果;在有天气预报的情况下也可以将天气预报数据一并输入,即[yτ,wfτ],其中wfτ是当前时间步所需的天气预报数据;cτ是当前时刻计算的上下文变量;值得注意的是,zτ对解码器隐层状态的表征有很重要的影响,同时也能捕捉相邻时间步预测输出之间的特征;σ表示logistic函数,其定义如下:
Figure FDA0002993485640000051
接着计算重置门的值,重置门用来选择性遗忘以往的信息,如当前时刻起风了,则忘记之前没有起风的信息;重置门参数的意义和计算方式与更新门类似,其计算公式为:
rτ+1=σ(Wrhτ+Urxr+1+Crcτ+Vrzτ+br)
接下来计算候补输出
Figure FDA0002993485640000052
它代表了上一步的信息和当前的信息融合得到的新的信息,其计算公式为:
Figure FDA0002993485640000053
此时重置门负责控制遗忘上一步得到的信息,logistic函数的值域是(0,1),因此重置门的取值范围也是(0,1);当重置门的取值接近0时,上一步的信息接近全部遗忘,达到重置的效果;当重置门的取值接近1时,上一步的信息几乎完全保留;
最后计算GRU隐藏层的状态,其计算公式如下:
Figure FDA0002993485640000054
更新门在此控制新的信息和上一步的信息所占的比例,当更新门取值接近1时,新的信息占比接近100%;当更新门的取值接近0时,上一步的信息占比接近100%;
4)利用解码器隐藏层状态和编码器状态得到上下文向量;注意力向量决定编码结果每个时刻的重要性,重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量;因此编码结果每个时刻的重要性可由如下公式计算:
Figure FDA0002993485640000055
在将结果归一化后就得到注意力向量:
Figure FDA0002993485640000061
aτ的每个元素便代表了编码结果每个时刻的重要性,值越大表示其对当前解码时刻影响越大;使用aτ为编码结果计算加权平均值即可得到上下文cτ,它代表了过去的污染物和气象数据对当前时刻预测有用的特征;最后即可由如下公式得到预测结果:
yτ=Wp*[hτ,cτ,zτ]+bp
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布,定义为:
p(yτ|X,y<τ,zτ)=exp{g(Wd[yτ-1;hτ;cτ;zτ]+bd)}
其中g为激活函数;
6)构建损失函数并使用梯度下降算法优化;对于深度学习模型训练时会采用小批量批量梯度下降,而且由于概率期望的存在,采用蒙特卡洛方法来近似期望;所以对于一个小批量的数据,其损失函数由如下公式计算:
Figure FDA0002993485640000062
其中L为一个小批量数据中的样本数量;最终使用梯度下降算法调整模型中的参数来最小化损失函数,而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。
5.根据权利要求1所述的一种基于多步骤递归预测的空气质量预测方法,其特征在于:步骤4的实现过程如下,
将测试数据输入AVAQP模型中得到每个样本的预测序列,如果测试结果不够理想则调整神经网络的参数得到更好的结果。
CN202110322814.7A 2021-03-26 2021-03-26 基于变分递归网络和自注意力机制的空气质量预测方法 Active CN113095550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110322814.7A CN113095550B (zh) 2021-03-26 2021-03-26 基于变分递归网络和自注意力机制的空气质量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110322814.7A CN113095550B (zh) 2021-03-26 2021-03-26 基于变分递归网络和自注意力机制的空气质量预测方法

Publications (2)

Publication Number Publication Date
CN113095550A true CN113095550A (zh) 2021-07-09
CN113095550B CN113095550B (zh) 2023-12-08

Family

ID=76669979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110322814.7A Active CN113095550B (zh) 2021-03-26 2021-03-26 基于变分递归网络和自注意力机制的空气质量预测方法

Country Status (1)

Country Link
CN (1) CN113095550B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657122A (zh) * 2021-09-07 2021-11-16 内蒙古工业大学 一种融合迁移学***行语料库的蒙汉机器翻译方法
CN113743648A (zh) * 2021-07-30 2021-12-03 中科三清科技有限公司 空气质量集合预报方法、装置、设备和可读存储介质
CN113762351A (zh) * 2021-08-12 2021-12-07 吉林大学 一种基于深层过渡网络的空气质量预测方法
CN114403486A (zh) * 2022-02-17 2022-04-29 四川大学 基于局部峰值编码循环网络的气流式烘丝机智能控制方法
CN114611792A (zh) * 2022-03-11 2022-06-10 南通大学 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法
CN117111646A (zh) * 2023-09-10 2023-11-24 福建天甫电子材料有限公司 一种蚀刻液浓度自动控制***
CN117316334A (zh) * 2023-11-30 2023-12-29 南京邮电大学 一种水厂混凝剂用量预测方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197736A (zh) * 2017-12-29 2018-06-22 北京工业大学 一种基于变分自编码器和极限学习机的空气质量预测方法
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN110070224A (zh) * 2019-04-20 2019-07-30 北京工业大学 一种基于多步骤递归预测的空气质量预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197736A (zh) * 2017-12-29 2018-06-22 北京工业大学 一种基于变分自编码器和极限学习机的空气质量预测方法
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN110070224A (zh) * 2019-04-20 2019-07-30 北京工业大学 一种基于多步骤递归预测的空气质量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BO LIU 等: "A Sequence-to-Sequence Air Quality Predictor Based on the n-Step Recurrent Prediction", 《IEEE ACCESS》, pages 43331 - 43343 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743648A (zh) * 2021-07-30 2021-12-03 中科三清科技有限公司 空气质量集合预报方法、装置、设备和可读存储介质
CN113762351A (zh) * 2021-08-12 2021-12-07 吉林大学 一种基于深层过渡网络的空气质量预测方法
CN113762351B (zh) * 2021-08-12 2023-12-05 吉林大学 一种基于深层过渡网络的空气质量预测方法
CN113657122A (zh) * 2021-09-07 2021-11-16 内蒙古工业大学 一种融合迁移学***行语料库的蒙汉机器翻译方法
CN113657122B (zh) * 2021-09-07 2023-12-15 内蒙古工业大学 一种融合迁移学***行语料库的蒙汉机器翻译方法
CN114403486A (zh) * 2022-02-17 2022-04-29 四川大学 基于局部峰值编码循环网络的气流式烘丝机智能控制方法
CN114611792A (zh) * 2022-03-11 2022-06-10 南通大学 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法
CN117111646A (zh) * 2023-09-10 2023-11-24 福建天甫电子材料有限公司 一种蚀刻液浓度自动控制***
CN117111646B (zh) * 2023-09-10 2024-05-24 福建天甫电子材料有限公司 一种蚀刻液浓度自动控制***
CN117316334A (zh) * 2023-11-30 2023-12-29 南京邮电大学 一种水厂混凝剂用量预测方法及***
CN117316334B (zh) * 2023-11-30 2024-03-12 南京邮电大学 一种水厂混凝剂用量预测方法及***

Also Published As

Publication number Publication date
CN113095550B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN113095550B (zh) 基于变分递归网络和自注意力机制的空气质量预测方法
CN110070224A (zh) 一种基于多步骤递归预测的空气质量预测方法
CN114386324A (zh) 一种基于转折性时段识别的超短期风电功率分段预测方法
CN110987436B (zh) 基于激励机制的轴承故障诊断方法
CN113065703A (zh) 一种结合多种模型的时间序列预测方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及***
CN112765894B (zh) 一种基于k-lstm的铝电解槽状态预测方法
CN113554466A (zh) 一种短期用电量预测模型构建方法、预测方法和装置
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN115542429A (zh) 一种基于XGBoost的臭氧质量预测方法及***
CN115860177A (zh) 基于组合式机器学习模型光伏发电功率预测方法及其应用
CN114218872A (zh) 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法
CN115018191A (zh) 一种基于小样本数据的碳排放量预测方法
CN114970815A (zh) 一种基于改进pso算法优化lstm的交通流预测方法及装置
CN116757057A (zh) 基于pso-ga-lstm模型的空气质量预测方法
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及***
CN115062528A (zh) 一种针对工业过程时序数据的预测方法
CN114596726A (zh) 基于可解释时空注意力机制的停车泊位预测方法
CN117521511A (zh) 一种基于改进灰狼算法优化lstm的粮仓温度预测方法
CN113159395A (zh) 一种基于深度学习的污水处理厂进水流量预测方法及***
CN117439053A (zh) 一种Stacking集成模型电量预测方法、装置、存储介质
CN116646927A (zh) 一种基于分段滤波与纵横聚类的风电功率预测方法
CN110648023A (zh) 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法
CN115796327A (zh) 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法
Kang et al. Research on forecasting method for effluent ammonia nitrogen concentration based on GRA-TCN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant