CN113095550A

CN113095550A - 基于变分递归网络和自注意力机制的空气质量预测方法

Info

Publication number: CN113095550A
Application number: CN202110322814.7A
Authority: CN
Inventors: 刘博�; 李依楠
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-09
Anticipated expiration: 2041-03-26
Also published as: CN113095550B

Abstract

本发明公开了一种基于变分递归神经网络和自注意力机制的空气质量预测方法，该方法包括如下步骤：获取空气质量数据和天气数据并预处理，构建输入数据和输出数据。编码器的输入数据包括污染物数据和历史气象数据。解码器的输入数据包括编码器的输出结果，气象预报数据，和上一时刻的污染物数据。将数据分割为训练数据和测试数据。使用训练数据对Seq2Seq模型进行训练：使用测试数据测试预测结果。本发明使用Seq2Seq模型对空气质量进行预测。首先在编码器的输入阶段引入了自注意力机制，从而实现了选取特征因子和把握长期时须依赖关系，在模型中使用VRNN代替解码器的RNN，进一步捕获输出端不同时间步之间复杂的依赖关系，有效减少误差积累从而提高预测精度。

Description

基于变分递归网络和自注意力机制的空气质量预测方法

技术领域

本发明属于数据挖掘技术领域，主要用于建立空气质量预测模型。

背景技术

近些年来，由于我国社会经济和工业化的快速发展，城市化进程的不断加快，能源结构不合理等背后带来的空气污染问题给人们的日常生活和工作造成了严重的影响。空气质量问题受到人们高度关注，因此当前一个十分紧迫的研究问题是在环境污染天气来临之前准确预测，采取相应的措施加以预防来降低恶劣环境带来的危害。空气质量的准确预测研究结果，不仅可以对空气污染的变化趋势有更直观的把控，还可以对城市环境污染治理、城市建设和公共卫生等领域都具有重要的指导意义、近几十年来，有诸多学者致力于空气质量的预测研究，由于大气环境***是一个复杂、多变的***，传统的预报模型难以在海量的历史监测数据中捕捉到有效信息而导致预测效果不理想。近年来深度学习方法在各类时间序列预测问题上被广泛应用，经过逐步发展从RNN(RecurrentNeural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)再到Seq2Seq(Sequence-to-Sequence,序列到序列)，现在的主流模型是Seq2Seq，对于空气质量预测这种时间序列预测问题也非常适合，因为空气质量预测的任务是利用历史污染物和天气信息序列得到未来一段时间的污染物序列。目前的研究一般会采用Seq2Seq和注意力机制。但是目前的研究存在两个问题，一个是Seq2Seq的训练速度太慢，因为一般使用深度学习预测空气质量会对每一个监测站都建立一个模型，而且这样的统计模型会随着时间的推移预测精度变低，往往过一段时间需要重新训练，如果大量模型同时训练会消耗大量的时间，因此需要对训练进行提速。另一个是由于空气质量数据是时空异质性数据，同时也存在大量噪声，目前的主流模型无法对预测数据的高度可变性建模，因此预测的精度扰动极大，进而引起预测精度低的问题。

发明内容

本发明的目的在于要解决Seq2Seq模型训练速度慢的问题，并且引入潜在语义变量捕捉预测时间步的强依赖关系从而提高预测精度。

对于Seq2Seq训练慢的问题，其根源在于RNN的训练速度慢，因为RNN每个时间步的计算都需要等待上一个时间步结束，因此无法并行计算。而且RNN的序列编码在处理长距离依赖关系时，由于梯度消失问题只适合短距离依赖关系。建立输入序列之间的长距离依赖关系，可以使用全连接网络，但是其无法处理变长序列，所以使用可以动态生成权重的注意力模型代替全连接层，并加入位置编码保留输入序列的时序信息。在每个时间步使用自注意力机制后，所有的时间步可以并行完成计算，并且可以处理变长序列，又因为自注意机制可以捕捉输入序列的依赖关系，所以可以有效提高训练速度。另外，对解码器应用VRNN递归预测，如图1所示。预测误差波动较大的原因在于空气质量数据是时空异质性数据，是高度结构化的数据，因环境噪声的扰动导致数据波动极大，预测前几个时间步的误差还相对较小，但由于是递归预测，越到后面的时间步，预测的输入是上一个时间步的预测结果，而上一个时间步也是有误差的，所以当前时间步的预测误差就会更大。而将解码器替换为VRNN，可以捕捉预测阶段不同时间步之间的潜在语义信息，考察不同时间步的内在关联，将潜在随机变量引入Seq2Seq模型指导隐层变量的生成过程，而预测输入又依赖于隐层状态，所以引入的潜在随机变量间接地影响了预测输出的生成。同时为了能够在深度学习环境下训练后验概率模型，采用神经网络和重参数方法来近似后验概率。这样在预测阶段不同时间步之间不仅可以相互约束，生成鲁棒、复杂的依赖关系模型，还可以捕获全局上下文语义，从而提升Seq2Seq模型性能，减少误差。

本发明采用的技术方案为一种基于变分递归网络和自注意力机制的空气质量预测方法，该方法包括如下步骤：

步骤1、获取空气质量数据和大气数据，对数据进行整理与清洗等预处理操作，构建输入数据和输出数据；编码器的输入数据包括污染物数据和历史气象数据；解码器的输入数据包括编码器的输出结果，气象预报数据，和上一时刻的污染物数据；

步骤2、将数据分割为训练数据和测试数据；

步骤3、构建AVAQP模型，使用训练数据对AVAQP模型进行训练：

1)将输入数据与位置编码输入编码器，得到每个时刻的编码器的隐藏层状态。

2)构建潜在随机变量的变分推断模型,计算潜在随机变量z_j。

3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入，并得到解码器VRNN的隐藏层状态。

4)利用解码器隐藏层状态和编码器状态得到上下文向量。

5)利用下一时刻的输入数据，包括如上一时刻的预测浓度以及下一时刻的天气数据，潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布。

6)构建损失函数并使用梯度下降算法优化

步骤4、使用测试数据测试预测结果。

本发明使用Seq2Seq模型对空气质量进行预测。使用自注意力模型代替编码器的RNN，并且使用位置编码保留输入序列的时序关系，从而达到保持预测精度的同时加速训练的效果。预测过程采用n-step递归预测，可以有效减少误差积累从而提高预测精度。

附图说明

图1为AVAQP训练的流程图

图2为GRU的内部结构图

图3为AVAQP单个解码时间步示意图

具体实施方式

以空气质量预测为例，以下是结合实例与附图对本发明的详细说明。

本发明使用一台PC机，并且需要拥有足够计算能力的GPU来加速训练。如图1所示,本发明提供的一种基于极限学习机的空气质量预测方法具体步骤如下：

步骤1、获取数据并预处理，构建输入与输出；

获取的数据一般包括空气质量数据和天气数据，需要将其处理为输入序列和输出序列，一般输入序列包括过去一段时间的污染物数据和天气数据。设D＝{X,Y}为处理之后的数据集。其中X为输入序列，即历史数据，包括污染物数据和天气数据。对于每一个输入序列x∈R^S×Q，其长度为S，即过去S小时的历史数据，并且有Q个特征，即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度等天气数据。对于每个目标序列y∈R^T，其长度为T，即未来T小时的污染物数据。实际应用中，y可以包含多个目标，如同时预测PM2.5，一氧化碳，二氧化硫等。

步骤2、将数据分割为训练数据和测试数据。

将步骤2中获取的样本分割为训练数据和和测试数据，训练数据用于训练模型，测试数据用于测试模型的效果。

步骤3、使用训练数据对AVAQP模型进行训练。

将输入数据与位置编码输入编码器，得到每个时刻的编码器的隐藏层状态；将输入数据进行线性变换得到三组向量序列Q、K、V；分别为自注意力机制中的查询向量序列，键向量序列和值向量序列，由如下方式计算：

Q＝W_Q(X+PE)

K＝(W_KX+PE)

V＝(W_VX+PE)

其中W_Q、W_K、W_V是可学习的参数矩阵，PE是位置编码矩阵，与输入数据维度相同；加入位置编码来补充序列位置信息；每一行对应一个输入序列。

将转换后的向量序列输入编码器，得到每个时刻的编码器的隐藏层状态；编码器的隐藏层状态由如下方式计算：

其中

是隐藏层的状态，i,j∈[1,N]分别是当前时间步序列与其他各序列的位置。连接权重α_ij由注意力机制动态生成；同时注意这里的激活函数使用的是tanh，要和解码器的激活函数保持一致，其定义为：

注意力打分函数使用缩放点积，可写为：

其中d_s是人为设置的超参数，目的是为了让梯度更稳定。

2)构建潜在随机变量的变分推断模型,计算潜在随机变量z_j；VRNN的关键在于对与潜在随机变量相关的分布进行建模。

后验概率和先验概率分别用两个神经网络拟合，其中后验概率模型可表示为

均值和方差计算公式为：

其中h_zτ是潜在随机变量的语义空间，通过非线性拟合方法来估计。先验概率模型与后验概率模型相似，但要注意它们之间的参数不共享。z_τ的计算公式为：

z_τ＝μ_τ+σ_τ⊙∈

其中∈是引入的噪声，

使每一个时间步的z_j非固定，进一步提高预测鲁棒性。

3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入，并得到解码器VRNN的隐藏层状态；解码器采用门控循环单元GRU，GRU每个时刻的输出；首先需要计算GRU中更新门的值，更新门控制进入当前单元的信息；

第τ+1个时间步的更新门计算公式为：

其中u_τ是更新门，W_u、U_u、C_u、V_u和b_u分别表示更新们的权值和偏置，h_τ表示上一时刻GRU的隐藏层状态，是上一时刻经过GRU处理后得到的特征，x_τ+1表示当前时刻的输入数据，可以是y_τ，即上一个时间步的预测结果；在有天气预报的情况下也可以将天气预报数据一并输入，即[y_τ,wf_τ]，其中wf_τ是当前时间步所需的天气预报数据；c_τ是当前时刻计算的上下文变量；值得注意的是，z_τ对解码器隐层状态的表征有很重要的影响，同时也能捕捉相邻时间步预测输出之间的特征；σ表示logistic函数，其定义如下：

接着计算重置门的值，重置门用来选择性遗忘以往的信息，如当前时刻起风了，则忘记之前没有起风的信息；重置门参数的意义和计算方式与更新门类似，其计算公式为：

r_τ+1＝σ(W_rh_τ+U_rx_τ+1+C_rc_τ+V_rz_τ+b_r)

接下来计算候补输出

它代表了上一步的信息和当前的信息融合得到的新的信息，其计算公式为：

此时重置门负责控制遗忘上一步得到的信息，logistic函数的值域是(0,1)，因此重置门的取值范围也是(0,1)；当重置门的取值接近0时，上一步的信息接近全部遗忘，达到重置的效果；当重置门的取值接近1时，上一步的信息几乎完全保留；

最后计算GRU隐藏层的状态，其计算公式如下：

更新门在此控制新的信息和上一步的信息所占的比例，当更新门取值接近1时，新的信息占比接近100％；当更新门的取值接近0时，上一步的信息占比接近100％。

4)利用解码器隐藏层状态和编码器状态得到上下文向量。注意力向量决定编码结果每个时刻的重要性，重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量。因此编码结果每个时刻的重要性可由如下公式计算：

在将结果归一化后就可以得到注意力向量：

a_τ的每个元素便代表了编码结果每个时刻的重要性，值越大表示其对当前解码时刻影响越大。使用a_τ为编码结果计算加权平均值即可得到上下文c_τ，它代表了过去的污染物和气象数据对当前时刻预测有用的特征。最后即可由如下公式得到预测结果：

5)利用下一时刻的输入数据，包括如上一时刻的预测浓度以及下一时刻的天气数据，潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布，定义为：

其中g为激活函数。

6)构建损失函数并使用梯度下降算法优化；对于深度学习模型训练时会采用小批量批量梯度下降，而且由于概率期望的存在，采用蒙特卡洛方法来近似期望。所以对于一个小批量的数据，其损失函数由如下公式计算：

其中L为一个小批量数据中的样本数量；最终可以使用梯度下降算法调整模型中的参数来最小化损失函数，而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。

步骤4、使用测试数据测试预测结果

将测试数据输入AVAQP模型中得到每个样本的预测序列，如果测试结果不够理想则调整神经网络的参数得到更好的结果。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于自注意力机制和变分递归网络的空气质量预测方法，其特征在于：该方法包括如下步骤：

步骤1、获取空气质量数据和大气数据，对数据进行整理与清洗预处理，构建输入数据和输出数据；编码器的输入数据包括污染物数据和历史气象数据；解码器的输入数据包括编码器的输出结果，气象预报数据，和上一时刻的污染物数据；

步骤2、将数据分割为训练数据和测试数据；

步骤3、构建AVAQP模型，使用训练数据对AVAQP模型进行训练：

1)将输入数据与位置编码输入编码器，得到每个时刻的编码器的隐藏层状态；

2)构建潜在随机变量的变分推断模型,计算潜在随机变量z_j；

3)将上一个时间步得到的预测结果、潜在语义变量作为当前时间步的输入，并得到解码器VRNN的隐藏层状态；

4)利用解码器隐藏层状态和编码器状态得到上下文向量；

5)利用下一时刻的输入数据，包括如上一时刻的预测浓度以及下一时刻的天气数据，潜在随机信息、解码器隐层状态以及上下文信息生成预测概率分布；

6)构建损失函数并使用梯度下降算法优化

步骤4、使用测试数据测试预测结果。

2.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法，其特征在于：步骤1的实现过程如下，

通过python爬取的大气数据包括大气污染物数据和天气数据，对其进行预处理，包括删除重复值、填补缺失值等，再进行归一化处理分割为输入序列和输出序列；输入数据包括历史72小时的污染物数据和天气数据；；设D＝{X，Y}为处理之后的数据集；其中X为输入序列，即历史数据，包括污染物数据和天气数据；对于每一个输入序列x∈R^S×Q，其长度为S，即过去S小时的历史数据，并且有Q个特征，即PM2.5、一氧化碳、二氧化硫等污染物数据和温度、湿度天气数据；对于每个目标序列y∈R^T，其长度为T，即未来T小时的污染物数据；y包含多个目标。

3.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法，其特征在于：将步骤2中获取的样本分割为训练数据和和测试数据，训练数据用于训练模型，测试数据用于测试模型的效果。

4.根据权利要求1所述的一种基于自注意力机制和变分递归网络的空气质量预测方法，其特征在于：步骤3中，构建AVAQP模型，使用训练数据对AVAQP模型进行训练；

1)将输入数据与位置编码输入编码器，得到每个时刻的编码器的隐藏层状态；将输入数据进行线性变换得到三组向量序列Q、K、V；分别为自注意力机制中的查询向量序列，键向量序列和值向量序列，由如下方式计算：

Q＝W_Q(X+PE)

K＝W_K(X+PE)

V＝W_V(X+PE)

其中W_Q、W_K、W_V是可学习的参数矩阵，PE是位置编码矩阵，与输入数据维度相同；加入位置编码来补充序列位置信息；每一行对应一个输入序列；

其中

是隐藏层的状态，i，j∈[1，N]分别是当前时间步序列与其他各序列的位置；连接权重α_ij由注意力机制动态生成；

同时注意这里的激活函数使用的是tanh，要和解码器的激活函数保持一致，其定义为：

注意力打分函数使用缩放点积，写为：

其中d_s是人为设置的超参数，目的是为了让梯度更稳定；

2)构建潜在随机变量的变分推断模型，计算潜在随机变量z_j；VRNN的关键在于对与潜在随机变量相关的分布进行建模；后验概率和先验概率分别用两个神经网络拟合，其中后验概率模型表示为

均值和方差计算公式为：

其中h_zτ是潜在随机变量的语义空间，通过非线性拟合方法来估计；先验概率模型与后验概率模型相似，但要注意它们之间的参数不共享；z_τ的计算公式为：

z_τ＝μ_τ+σ_τ⊙∈

其中∈是引入的噪声，

使每一个时间步的z_j非固定，进一步提高预测鲁棒性；

第τ+1个时间步的更新门计算公式为：

u_τ+1＝σ(W_uh_τ+U_ux_τ+1+C_uc_τ+V_uz_τ+b_u)

其中u_τ是更新门，W_u、U_u、C_u、V_u和b_u分别表示更新们的权值和偏置，h_τ表示上一时刻GRU的隐藏层状态，是上一时刻经过GRU处理后得到的特征，x_τ+1表示当前时刻的输入数据y_τ，即上一个时间步的预测结果；在有天气预报的情况下也可以将天气预报数据一并输入，即[y_τ，wf_τ]，其中wf_τ是当前时间步所需的天气预报数据；c_τ是当前时刻计算的上下文变量；值得注意的是，z_τ对解码器隐层状态的表征有很重要的影响，同时也能捕捉相邻时间步预测输出之间的特征；σ表示logistic函数，其定义如下：

r_τ+1＝σ(W_rh_τ+U_rx_r+1+C_rc_τ+V_rz_τ+b_r)

接下来计算候补输出

此时重置门负责控制遗忘上一步得到的信息，logistic函数的值域是(0，1)，因此重置门的取值范围也是(0，1)；当重置门的取值接近0时，上一步的信息接近全部遗忘，达到重置的效果；当重置门的取值接近1时，上一步的信息几乎完全保留；

最后计算GRU隐藏层的状态，其计算公式如下：

更新门在此控制新的信息和上一步的信息所占的比例，当更新门取值接近1时，新的信息占比接近100％；当更新门的取值接近0时，上一步的信息占比接近100％；

4)利用解码器隐藏层状态和编码器状态得到上下文向量；注意力向量决定编码结果每个时刻的重要性，重要性由解码器隐藏层状态和编码器隐藏层状态的相似度衡量；因此编码结果每个时刻的重要性可由如下公式计算：

在将结果归一化后就得到注意力向量：

a_τ的每个元素便代表了编码结果每个时刻的重要性，值越大表示其对当前解码时刻影响越大；使用a_τ为编码结果计算加权平均值即可得到上下文c_τ，它代表了过去的污染物和气象数据对当前时刻预测有用的特征；最后即可由如下公式得到预测结果：

y_τ＝W_p*[h_τ，c_τ，z_τ]+b_p

p(y_τ|X，y_＜τ，z_τ)＝exp{g(W_d[y_τ-1；h_τ；c_τ；z_τ]+b_d)}

其中g为激活函数；

6)构建损失函数并使用梯度下降算法优化；对于深度学习模型训练时会采用小批量批量梯度下降，而且由于概率期望的存在，采用蒙特卡洛方法来近似期望；所以对于一个小批量的数据，其损失函数由如下公式计算：

其中L为一个小批量数据中的样本数量；最终使用梯度下降算法调整模型中的参数来最小化损失函数，而梯度下降所用到的梯度使用反向传播算法或者自动微分工具计算。

5.根据权利要求1所述的一种基于多步骤递归预测的空气质量预测方法，其特征在于：步骤4的实现过程如下，