CN113095550A - 基于变分递归网络和自注意力机制的空气质量预测方法 - Google Patents
基于变分递归网络和自注意力机制的空气质量预测方法 Download PDFInfo
- Publication number
- CN113095550A CN113095550A CN202110322814.7A CN202110322814A CN113095550A CN 113095550 A CN113095550 A CN 113095550A CN 202110322814 A CN202110322814 A CN 202110322814A CN 113095550 A CN113095550 A CN 113095550A
- Authority
- CN
- China
- Prior art keywords
- data
- prediction
- hidden layer
- encoder
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 19
- 231100000719 pollutant Toxicity 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 claims description 3
- 229910002091 carbon monoxide Inorganic materials 0.000 claims description 3
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 2
- 238000007664 blowing Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000009825 accumulation Methods 0.000 abstract description 2
- 230000007774 longterm Effects 0.000 abstract 1
- 230000000306 recurrent effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000010269 sulphur dioxide Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000004291 sulphur dioxide Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Geometry (AREA)
Abstract
本发明公开了一种基于变分递归神经网络和自注意力机制的空气质量预测方法,该方法包括如下步骤:获取空气质量数据和天气数据并预处理,构建输入数据和输出数据。编码器的输入数据包括污染物数据和历史气象数据。解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据。将数据分割为训练数据和测试数据。使用训练数据对Seq2Seq模型进行训练:使用测试数据测试预测结果。本发明使用Seq2Seq模型对空气质量进行预测。首先在编码器的输入阶段引入了自注意力机制,从而实现了选取特征因子和把握长期时须依赖关系,在模型中使用VRNN代替解码器的RNN,进一步捕获输出端不同时间步之间复杂的依赖关系,有效减少误差积累从而提高预测精度。
Description
技术领域
本发明属于数据挖掘技术领域,主要用于建立空气质量预测模型。
背景技术
近些年来,由于我国社会经济和工业化的快速发展,城市化进程的不断加快,能源结构不合理等背后带来的空气污染问题给人们的日常生活和工作造成了严重的影响。空气质量问题受到人们高度关注,因此当前一个十分紧迫的研究问题是在环境污染天气来临之前准确预测,采取相应的措施加以预防来降低恶劣环境带来的危害。空气质量的准确预测研究结果,不仅可以对空气污染的变化趋势有更直观的把控,还可以对城市环境污染治理、城市建设和公共卫生等领域都具有重要的指导意义、近几十年来,有诸多学者致力于空气质量的预测研究,由于大气环境***是一个复杂、多变的***,传统的预报模型难以在海量的历史监测数据中捕捉到有效信息而导致预测效果不理想。近年来深度学习方法在各类时间序列预测问题上被广泛应用,经过逐步发展从RNN(RecurrentNeural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)再到Seq2Seq(Sequence-to-Sequence,序列到序列),现在的主流模型是Seq2Seq,对于空气质量预测这种时间序列预测问题也非常适合,因为空气质量预测的任务是利用历史污染物和天气信息序列得到未来一段时间的污染物序列。目前的研究一般会采用Seq2Seq和注意力机制。但是目前的研究存在两个问题,一个是Seq2Seq的训练速度太慢,因为一般使用深度学习预测空气质量会对每一个监测站都建立一个模型,而且这样的统计模型会随着时间的推移预测精度变低,往往过一段时间需要重新训练,如果大量模型同时训练会消耗大量的时间,因此需要对训练进行提速。另一个是由于空气质量数据是时空异质性数据,同时也存在大量噪声,目前的主流模型无法对预测数据的高度可变性建模,因此预测的精度扰动极大,进而引起预测精度低的问题。
发明内容
本发明的目的在于要解决Seq2Seq模型训练速度慢的问题,并且引入潜在语义变量捕捉预测时间步的强依赖关系从而提高预测精度。
对于Seq2Seq训练慢的问题,其根源在于RNN的训练速度慢,因为RNN每个时间步的计算都需要等待上一个时间步结束,因此无法并行计算。而且RNN的序列编码在处理长距离依赖关系时,由于梯度消失问题只适合短距离依赖关系。建立输入序列之间的长距离依赖关系,可以使用全连接网络,但是其无法处理变长序列,所以使用可以动态生成权重的注意力模型代替全连接层,并加入位置编码保留输入序列的时序信息。在每个时间步使用自注意力机制后,所有的时间步可以并行完成计算,并且可以处理变长序列,又因为自注意机制可以捕捉输入序列的依赖关系,所以可以有效提高训练速度。另外,对解码器应用VRNN递归预测,如图1所示。预测误差波动较大的原因在于空气质量数据是时空异质性数据,是高度结构化的数据,因环境噪声的扰动导致数据波动极大,预测前几个时间步的误差还相对较小,但由于是递归预测,越到后面的时间步,预测的输入是上一个时间步的预测结果,而上一个时间步也是有误差的,所以当前时间步的预测误差就会更大。而将解码器替换为VRNN,可以捕捉预测阶段不同时间步之间的潜在语义信息,考察不同时间步的内在关联,将潜在随机变量引入Seq2Seq模型指导隐层变量的生成过程,而预测输入又依赖于隐层状态,所以引入的潜在随机变量间接地影响了预测输出的生成。同时为了能够在深度学习环境下训练后验概率模型,采用神经网络和重参数方法来近似后验概率。这样在预测阶段不同时间步之间不仅可以相互约束,生成鲁棒、复杂的依赖关系模型,还可以捕获全局上下文语义,从而提升Seq2Seq模型性能,减少误差。
本发明采用的技术方案为一种基于变分递归网络和自注意力机制的空气质量预测方法,该方法包括如下步骤:
步骤1、获取空气质量数据和大气数据,对数据进行整理与清洗等预处理操作,构建输入数据和输出数据;编码器的输入数据包括污染物数据和历史气象数据;解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据;
步骤2、将数据分割为训练数据和测试数据;
步骤3、构建AVAQP模型,使用训练数据对AVAQP模型进行训练:
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态。
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj。
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态。
4)利用解码器隐藏层状态和编码器状态得到上下文向量。
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布。
6)构建损失函数并使用梯度下降算法优化
步骤4、使用测试数据测试预测结果。
本发明使用Seq2Seq模型对空气质量进行预测。使用自注意力模型代替编码器的RNN,并且使用位置编码保留输入序列的时序关系,从而达到保持预测精度的同时加速训练的效果。预测过程采用n-step递归预测,可以有效减少误差积累从而提高预测精度。
附图说明
图1为AVAQP训练的流程图
图2为GRU的内部结构图
图3为AVAQP单个解码时间步示意图
具体实施方式
以空气质量预测为例,以下是结合实例与附图对本发明的详细说明。
本发明使用一台PC机,并且需要拥有足够计算能力的GPU来加速训练。如图1所示,本发明提供的一种基于极限学习机的空气质量预测方法具体步骤如下:
步骤1、获取数据并预处理,构建输入与输出;
获取的数据一般包括空气质量数据和天气数据,需要将其处理为输入序列和输出序列,一般输入序列包括过去一段时间的污染物数据和天气数据。设D={X,Y}为处理之后的数据集。其中X为输入序列,即历史数据,包括污染物数据和天气数据。对于每一个输入序列x∈RS×Q,其长度为S,即过去S小时的历史数据,并且有Q个特征,即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度等天气数据。对于每个目标序列y∈RT,其长度为T,即未来T小时的污染物数据。实际应用中,y可以包含多个目标,如同时预测PM2.5,一氧化碳,二氧化硫等。
步骤2、将数据分割为训练数据和测试数据。
将步骤2中获取的样本分割为训练数据和和测试数据,训练数据用于训练模型,测试数据用于测试模型的效果。
步骤3、使用训练数据对AVAQP模型进行训练。
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态。
将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;将输入数据进行线性变换得到三组向量序列Q、K、V;分别为自注意力机制中的查询向量序列,键向量序列和值向量序列,由如下方式计算:
Q=WQ(X+PE)
K=(WKX+PE)
V=(WVX+PE)
其中WQ、WK、WV是可学习的参数矩阵,PE是位置编码矩阵,与输入数据维度相同;加入位置编码来补充序列位置信息;每一行对应一个输入序列。
将转换后的向量序列输入编码器,得到每个时刻的编码器的隐藏层状态;编码器的隐藏层状态由如下方式计算:
注意力打分函数使用缩放点积,可写为:
其中ds是人为设置的超参数,目的是为了让梯度更稳定。
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj;VRNN的关键在于对与潜在随机变量相关的分布进行建模。
其中hzτ是潜在随机变量的语义空间,通过非线性拟合方法来估计。先验概率模型与后验概率模型相似,但要注意它们之间的参数不共享。zτ的计算公式为:
zτ=μτ+στ⊙∈
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;解码器采用门控循环单元GRU,GRU每个时刻的输出;首先需要计算GRU中更新门的值,更新门控制进入当前单元的信息;
第τ+1个时间步的更新门计算公式为:
其中uτ是更新门,Wu、Uu、Cu、Vu和bu分别表示更新们的权值和偏置,hτ表示上一时刻GRU的隐藏层状态,是上一时刻经过GRU处理后得到的特征,xτ+1表示当前时刻的输入数据,可以是yτ,即上一个时间步的预测结果;在有天气预报的情况下也可以将天气预报数据一并输入,即[yτ,wfτ],其中wfτ是当前时间步所需的天气预报数据;cτ是当前时刻计算的上下文变量;值得注意的是,zτ对解码器隐层状态的表征有很重要的影响,同时也能捕捉相邻时间步预测输出之间的特征;σ表示logistic函数,其定义如下:
接着计算重置门的值,重置门用来选择性遗忘以往的信息,如当前时刻起风了,则忘记之前没有起风的信息;重置门参数的意义和计算方式与更新门类似,其计算公式为:
rτ+1=σ(Wrhτ+Urxτ+1+Crcτ+Vrzτ+br)
此时重置门负责控制遗忘上一步得到的信息,logistic函数的值域是(0,1),因此重置门的取值范围也是(0,1);当重置门的取值接近0时,上一步的信息接近全部遗忘,达到重置的效果;当重置门的取值接近1时,上一步的信息几乎完全保留;
最后计算GRU隐藏层的状态,其计算公式如下:
更新门在此控制新的信息和上一步的信息所占的比例,当更新门取值接近1时,新的信息占比接近100%;当更新门的取值接近0时,上一步的信息占比接近100%。
4)利用解码器隐藏层状态和编码器状态得到上下文向量。注意力向量决定编码结果每个时刻的重要性,重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量。因此编码结果每个时刻的重要性可由如下公式计算:
在将结果归一化后就可以得到注意力向量:
aτ的每个元素便代表了编码结果每个时刻的重要性,值越大表示其对当前解码时刻影响越大。使用aτ为编码结果计算加权平均值即可得到上下文cτ,它代表了过去的污染物和气象数据对当前时刻预测有用的特征。最后即可由如下公式得到预测结果:
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布,定义为:
其中g为激活函数。
6)构建损失函数并使用梯度下降算法优化;对于深度学习模型训练时会采用小批量批量梯度下降,而且由于概率期望的存在,采用蒙特卡洛方法来近似期望。所以对于一个小批量的数据,其损失函数由如下公式计算:
其中L为一个小批量数据中的样本数量;最终可以使用梯度下降算法调整模型中的参数来最小化损失函数,而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。
步骤4、使用测试数据测试预测结果
将测试数据输入AVAQP模型中得到每个样本的预测序列,如果测试结果不够理想则调整神经网络的参数得到更好的结果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (5)
1.一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:该方法包括如下步骤:
步骤1、获取空气质量数据和大气数据,对数据进行整理与清洗预处理,构建输入数据和输出数据;编码器的输入数据包括污染物数据和历史气象数据;解码器的输入数据包括编码器的输出结果,气象预报数据,和上一时刻的污染物数据;
步骤2、将数据分割为训练数据和测试数据;
步骤3、构建AVAQP模型,使用训练数据对AVAQP模型进行训练:
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;
2)构建潜在随机变量的变分推断模型,计算潜在随机变量zj;
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;
4)利用解码器隐藏层状态和编码器状态得到上下文向量;
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布;
6)构建损失函数并使用梯度下降算法优化
步骤4、使用测试数据测试预测结果。
2.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:步骤1的实现过程如下,
通过python爬取的大气数据包括大气污染物数据和天气数据,对其进行预处理,包括删除重复值、填补缺失值等,再进行归一化处理分割为输入序列和输出序列;输入数据包括历史72小时的污染物数据和天气数据;;设D={X,Y}为处理之后的数据集;其中X为输入序列,即历史数据,包括污染物数据和天气数据;对于每一个输入序列x∈RS×Q,其长度为S,即过去S小时的历史数据,并且有Q个特征,即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度天气数据;对于每个目标序列y∈RT,其长度为T,即未来T小时的污染物数据;y包含多个目标。
3.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:将步骤2中获取的样本分割为训练数据和和测试数据,训练数据用于训练模型,测试数据用于测试模型的效果。
4.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法,其特征在于:步骤3中,构建AVAQP模型,使用训练数据对AVAQP模型进行训练;
1)将输入数据与位置编码输入编码器,得到每个时刻的编码器的隐藏层状态;将输入数据进行线性变换得到三组向量序列Q、K、V;分别为自注意力机制中的查询向量序列,键向量序列和值向量序列,由如下方式计算:
Q=WQ(X+PE)
K=WK(X+PE)
V=WV(X+PE)
其中WQ、WK、WV是可学习的参数矩阵,PE是位置编码矩阵,与输入数据维度相同;加入位置编码来补充序列位置信息;每一行对应一个输入序列;
将转换后的向量序列输入编码器,得到每个时刻的编码器的隐藏层状态;编码器的隐藏层状态由如下方式计算:
同时注意这里的激活函数使用的是tanh,要和解码器的激活函数保持一致,其定义为:
注意力打分函数使用缩放点积,写为:
其中ds是人为设置的超参数,目的是为了让梯度更稳定;
其中hzτ是潜在随机变量的语义空间,通过非线性拟合方法来估计;先验概率模型与后验概率模型相似,但要注意它们之间的参数不共享;zτ的计算公式为:
zτ=μτ+στ⊙∈
3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入,并得到解码器VRNN的隐藏层状态;解码器采用门控循环单元GRU,GRU每个时刻的输出;首先需要计算GRU中更新门的值,更新门控制进入当前单元的信息;
第τ+1个时间步的更新门计算公式为:
uτ+1=σ(Wuhτ+Uuxτ+1+Cucτ+Vuzτ+bu)
其中uτ是更新门,Wu、Uu、Cu、Vu和bu分别表示更新们的权值和偏置,hτ表示上一时刻GRU的隐藏层状态,是上一时刻经过GRU处理后得到的特征,xτ+1表示当前时刻的输入数据yτ,即上一个时间步的预测结果;在有天气预报的情况下也可以将天气预报数据一并输入,即[yτ,wfτ],其中wfτ是当前时间步所需的天气预报数据;cτ是当前时刻计算的上下文变量;值得注意的是,zτ对解码器隐层状态的表征有很重要的影响,同时也能捕捉相邻时间步预测输出之间的特征;σ表示logistic函数,其定义如下:
接着计算重置门的值,重置门用来选择性遗忘以往的信息,如当前时刻起风了,则忘记之前没有起风的信息;重置门参数的意义和计算方式与更新门类似,其计算公式为:
rτ+1=σ(Wrhτ+Urxr+1+Crcτ+Vrzτ+br)
此时重置门负责控制遗忘上一步得到的信息,logistic函数的值域是(0,1),因此重置门的取值范围也是(0,1);当重置门的取值接近0时,上一步的信息接近全部遗忘,达到重置的效果;当重置门的取值接近1时,上一步的信息几乎完全保留;
最后计算GRU隐藏层的状态,其计算公式如下:
更新门在此控制新的信息和上一步的信息所占的比例,当更新门取值接近1时,新的信息占比接近100%;当更新门的取值接近0时,上一步的信息占比接近100%;
4)利用解码器隐藏层状态和编码器状态得到上下文向量;注意力向量决定编码结果每个时刻的重要性,重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量;因此编码结果每个时刻的重要性可由如下公式计算:
在将结果归一化后就得到注意力向量:
aτ的每个元素便代表了编码结果每个时刻的重要性,值越大表示其对当前解码时刻影响越大;使用aτ为编码结果计算加权平均值即可得到上下文cτ,它代表了过去的污染物和气象数据对当前时刻预测有用的特征;最后即可由如下公式得到预测结果:
yτ=Wp*[hτ,cτ,zτ]+bp
5)利用下一时刻的输入数据,包括如上一时刻的预测浓度以及下一时刻的天气数据,潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布,定义为:
p(yτ|X,y<τ,zτ)=exp{g(Wd[yτ-1;hτ;cτ;zτ]+bd)}
其中g为激活函数;
6)构建损失函数并使用梯度下降算法优化;对于深度学习模型训练时会采用小批量批量梯度下降,而且由于概率期望的存在,采用蒙特卡洛方法来近似期望;所以对于一个小批量的数据,其损失函数由如下公式计算:
其中L为一个小批量数据中的样本数量;最终使用梯度下降算法调整模型中的参数来最小化损失函数,而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。
5.根据权利要求1所述的一种基于多步骤递归预测的空气质量预测方法,其特征在于:步骤4的实现过程如下,
将测试数据输入AVAQP模型中得到每个样本的预测序列,如果测试结果不够理想则调整神经网络的参数得到更好的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322814.7A CN113095550B (zh) | 2021-03-26 | 2021-03-26 | 基于变分递归网络和自注意力机制的空气质量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322814.7A CN113095550B (zh) | 2021-03-26 | 2021-03-26 | 基于变分递归网络和自注意力机制的空气质量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095550A true CN113095550A (zh) | 2021-07-09 |
CN113095550B CN113095550B (zh) | 2023-12-08 |
Family
ID=76669979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322814.7A Active CN113095550B (zh) | 2021-03-26 | 2021-03-26 | 基于变分递归网络和自注意力机制的空气质量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095550B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657122A (zh) * | 2021-09-07 | 2021-11-16 | 内蒙古工业大学 | 一种融合迁移学***行语料库的蒙汉机器翻译方法 |
CN113743648A (zh) * | 2021-07-30 | 2021-12-03 | 中科三清科技有限公司 | 空气质量集合预报方法、装置、设备和可读存储介质 |
CN113762351A (zh) * | 2021-08-12 | 2021-12-07 | 吉林大学 | 一种基于深层过渡网络的空气质量预测方法 |
CN114403486A (zh) * | 2022-02-17 | 2022-04-29 | 四川大学 | 基于局部峰值编码循环网络的气流式烘丝机智能控制方法 |
CN114611792A (zh) * | 2022-03-11 | 2022-06-10 | 南通大学 | 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法 |
CN117111646A (zh) * | 2023-09-10 | 2023-11-24 | 福建天甫电子材料有限公司 | 一种蚀刻液浓度自动控制*** |
CN117316334A (zh) * | 2023-11-30 | 2023-12-29 | 南京邮电大学 | 一种水厂混凝剂用量预测方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197736A (zh) * | 2017-12-29 | 2018-06-22 | 北京工业大学 | 一种基于变分自编码器和极限学习机的空气质量预测方法 |
CN109142171A (zh) * | 2018-06-15 | 2019-01-04 | 上海师范大学 | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 |
CN110070224A (zh) * | 2019-04-20 | 2019-07-30 | 北京工业大学 | 一种基于多步骤递归预测的空气质量预测方法 |
-
2021
- 2021-03-26 CN CN202110322814.7A patent/CN113095550B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197736A (zh) * | 2017-12-29 | 2018-06-22 | 北京工业大学 | 一种基于变分自编码器和极限学习机的空气质量预测方法 |
CN109142171A (zh) * | 2018-06-15 | 2019-01-04 | 上海师范大学 | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 |
CN110070224A (zh) * | 2019-04-20 | 2019-07-30 | 北京工业大学 | 一种基于多步骤递归预测的空气质量预测方法 |
Non-Patent Citations (1)
Title |
---|
BO LIU 等: "A Sequence-to-Sequence Air Quality Predictor Based on the n-Step Recurrent Prediction", 《IEEE ACCESS》, pages 43331 - 43343 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743648A (zh) * | 2021-07-30 | 2021-12-03 | 中科三清科技有限公司 | 空气质量集合预报方法、装置、设备和可读存储介质 |
CN113762351A (zh) * | 2021-08-12 | 2021-12-07 | 吉林大学 | 一种基于深层过渡网络的空气质量预测方法 |
CN113762351B (zh) * | 2021-08-12 | 2023-12-05 | 吉林大学 | 一种基于深层过渡网络的空气质量预测方法 |
CN113657122A (zh) * | 2021-09-07 | 2021-11-16 | 内蒙古工业大学 | 一种融合迁移学***行语料库的蒙汉机器翻译方法 |
CN113657122B (zh) * | 2021-09-07 | 2023-12-15 | 内蒙古工业大学 | 一种融合迁移学***行语料库的蒙汉机器翻译方法 |
CN114403486A (zh) * | 2022-02-17 | 2022-04-29 | 四川大学 | 基于局部峰值编码循环网络的气流式烘丝机智能控制方法 |
CN114611792A (zh) * | 2022-03-11 | 2022-06-10 | 南通大学 | 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法 |
CN117111646A (zh) * | 2023-09-10 | 2023-11-24 | 福建天甫电子材料有限公司 | 一种蚀刻液浓度自动控制*** |
CN117111646B (zh) * | 2023-09-10 | 2024-05-24 | 福建天甫电子材料有限公司 | 一种蚀刻液浓度自动控制*** |
CN117316334A (zh) * | 2023-11-30 | 2023-12-29 | 南京邮电大学 | 一种水厂混凝剂用量预测方法及*** |
CN117316334B (zh) * | 2023-11-30 | 2024-03-12 | 南京邮电大学 | 一种水厂混凝剂用量预测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113095550B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095550B (zh) | 基于变分递归网络和自注意力机制的空气质量预测方法 | |
CN110070224A (zh) | 一种基于多步骤递归预测的空气质量预测方法 | |
CN114386324A (zh) | 一种基于转折性时段识别的超短期风电功率分段预测方法 | |
CN110987436B (zh) | 基于激励机制的轴承故障诊断方法 | |
CN113065703A (zh) | 一种结合多种模型的时间序列预测方法 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及*** | |
CN112765894B (zh) | 一种基于k-lstm的铝电解槽状态预测方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及*** | |
CN115542429A (zh) | 一种基于XGBoost的臭氧质量预测方法及*** | |
CN115860177A (zh) | 基于组合式机器学习模型光伏发电功率预测方法及其应用 | |
CN114218872A (zh) | 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法 | |
CN115018191A (zh) | 一种基于小样本数据的碳排放量预测方法 | |
CN114970815A (zh) | 一种基于改进pso算法优化lstm的交通流预测方法及装置 | |
CN116757057A (zh) | 基于pso-ga-lstm模型的空气质量预测方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及*** | |
CN115062528A (zh) | 一种针对工业过程时序数据的预测方法 | |
CN114596726A (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN117521511A (zh) | 一种基于改进灰狼算法优化lstm的粮仓温度预测方法 | |
CN113159395A (zh) | 一种基于深度学习的污水处理厂进水流量预测方法及*** | |
CN117439053A (zh) | 一种Stacking集成模型电量预测方法、装置、存储介质 | |
CN116646927A (zh) | 一种基于分段滤波与纵横聚类的风电功率预测方法 | |
CN110648023A (zh) | 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法 | |
CN115796327A (zh) | 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法 | |
Kang et al. | Research on forecasting method for effluent ammonia nitrogen concentration based on GRA-TCN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |