CN114662791A

CN114662791A - 一种基于时空注意力的长时序pm2.5预测方法及***

Info

Publication number: CN114662791A
Application number: CN202210424395.2A
Authority: CN
Inventors: 张晓霞; 李启熊; 王烨; 于洪; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-06-24

Abstract

本发明属于PM2.5时序预测领域,是一种基于时空注意力的长时序pm2.5预测方法及***，所述方法包括获取输出并进行预处理；将预处理后的数据输入特征提取网络进行特征提取；利用空间注意力网络将不同站点提取的特征连接并融合；将空间注意力网络处理后的特征通过多层双向LSTM得到过去的特征；将待预测时间段对应的已知的未来特征数据，通过神经网络提取得到未来的特征并未来的特征进行连接后，得到预测结果；使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛；将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络，并输出预测结果；本发明能够精准的进行长时序的pm2.5预测。

Description

一种基于时空注意力的长时序pm2.5预测方法及***

技术领域

本发明属于PM2.5时序预测领域，特别涉及一种基于时空注意力的长时序pm2.5预测方法及***。

背景技术

PM2.5(空气动力直径小于2.5μm的颗粒)作为大气中的主要污染物，因其对环境空气质量、公众健康和社会经济发展的负面影响而引起了预测领域的广泛关注。特别是PM2.5浓度预测对于控制和减少空气污染具有重要意义，有助于政府做出有效的预警决策，提醒公众健康出行。因此，有效的预测模型产生的PM2.5浓度预测更准确的预测结果将变得越来越重要。然而由于pm2.5受天气、车流量、风向、风速一起其他气象因子等外部因素的影响，出现了复杂的时间纠缠，使得pm2.5预测在长时序下仍具有挑战性。

PM2.5浓度预测方法主要分为物理模型法和数据驱动法两大类。基于物理模型方法研究如CMAQ模型和WRF/Chem模型被广泛应用于空气质量预测。本物理模型法通常基于大气污染物物理变化过程等专业知识，从专业角度构建污染物浓度变化模型。基于物理模型的方法的主要优点是应用广泛，可以清楚地看到一定环境条件下各要素相互作用的运行规律和原理。但由于pm2.5组成成分变异非常明显，物理传播过程极为复杂，缺乏对应的知识以及猜想，我们很难全面的考虑所有发生的情况。同时不同地区的环境有很大不同，例如风向与天气气候，当地的工业设施建设情况以及部署位置和密度的不同，还有车流量的变化，都会使得空气污染物的传输与反应在不同地方有着极大的差异。因此与物理模型法相比，基于数据驱动的统计方法建模简单，具有良好的性能。

现有技术中，然而由于大气环境的动态特性，递归神经网络(Recurrent neuralnetwork)可以处理任何输入序列，从而保证了对时间序列的学习能力，特别适合于模拟大气污染物分布的时间演化。然而，当传统的RNN滞后时间较长时，会出现梯度消失、梯度***等问题。长短时记忆(Long short term memory)网络可以在一定程度上缓解这一问题。

最近，利用复合模型的方法也成为一个趋势，一些方法利用卷积神经网络(convolutional neural network)挖掘数据的非线性空间相关性，从而进一步提高模型的性能。许多研究人员使用基于CNN-LSTM多层结构的神经网络来学习空气污染时间序列数据的内在时空相关性。然而，CNN网络是二维卷积的，这种方法破坏了数据原始的结构信息，忽略了时间相关性。

现有的PM2.5浓度预测方法忽略了不同站点的时空状态对未来PM2.5浓度的动态影响，大多数方法不能同时有效地模拟PM2.5浓度的时空依赖性。同时，站点自身的特征与站点之间的空间联系的同时处理会导致特征的提取出现误差，同时由于不同区域环境特征的多样性，因此如何根据数据特点自适应的提取特征，学习不同站点间的空间相关性，同时捕获复杂的pm2.5周期模式，是当前亟待解决的问题。

发明内容

为解决上述问题，本发明提出了一种基于时空注意力机制的自适应长时序pm2.5预测方法及***，所述方法包括以下步骤：

获取不同的污染物浓度数据和气象因子数据，并对其进行归一化和缺失值填补；

将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取；

利用空间注意力网络将不同站点提取的特征连接并融合；

将处理后的特征放入多层双向LSTM，得到数据的正向和反向趋势，用于提取PM2.5浓度的复杂周期性特征；

取已知的未来特征数据，用特征提取网络通过嵌入层后获得未来特征，连接过去的特征，最后通过线性层输出回归结果；

使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛；

将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络，并输出预测结果。

进一步的，将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取包括：

FEN(f)＝GLU(μ₀)+μ₁；

μ₀＝tanh(w₀f+b₀)；

μ₁＝w₁f+b₁；

其中，FEN(f)为特征提取网络；f为不同站点的预处理后的气象数据；GLU()为门控线性网络；w₀为特征权重；b₀为偏置项；w₁为特征权重；b₁为偏置项。

进一步的，门控线性网络提取非线性特征的过程，表示为：

GLU(μ₀)＝(σ(w₁*μ₀+b₂)⊙(w₁*μ₀+b₃))；

其中，GLU(μ₀)为根据输入数据提取的非线性特征；w₁为隐特征权重；b₂、b₃为偏置项；⊙为点乘；σ()表示sigmoid函数。

进一步的，利用空间注意力网络将不同站点提取的特征连接并融合，即将提取的特征输入前馈神经网络得到站点的特征因子，表示为：

h₀＝w_tarh_tar+b_tar；

α_i＝concat(h_i,h₀)；

并将目标站点的特征因子分别与其他站点的特征因子进行拼接，将拼接后的值通过双曲正切函数激活函数计算注意力权值，表示为：

通过softmax和注意权值计算每一站点的注意力权重，表示为：

其中，h₀为目标特征影响权重；w_tar为目标站点空间权重；b_tar为目标站点的空间偏置；h_i为一个非目标站点的特征因子；α_i为h₀与h_i拼接得到的特征；

表示α_i的第j维特征；w_i为特征权重；b_i为第i个站点的空间偏置；

表示空气站点i的第j维的重要性权重，

表示空气站点i的第j维的空间注意力权值；L为站点的特征维数，exp代表指数函数；h_tar为目标站点特征序列。

进一步的，考虑到数据的标准偏差波动和平均误差的损失函数表示为：

其中，Loss为损失函数；MSE为参数估计中的均方误差；Std^*为预测序列的标准差；Std为真实序列的标准差；w₂为L2正则化参数，表示为

λ为正则化参数，w_i为第i个神经网络的参数；M为神经网络中的参数个数。

进一步的，参数估计中的均方误差为参数估计值与参数真值之差平方的期望值，表示为：

其中，N为站点的数量；

为参数估计值；y_(j)参数真值。

进一步的，预测序列和真实序列的标准差计算过程包括：

其中，N为站点的数量；

为预测序列点值；y^*-为预测序列均值；y_(j)为真实序列点值；y^-为真实序列均值。

本发明还提出一种基于时空注意力的长时序pm2.5预测的***，该***用于实现一种基于时空注意力的长时序pm2.5预测的方法，该***包括时序数据获取模块、特征提取模块、空间注意力网络、多层双向LSTM、时序特征提取模块、特征连接模块以及预测模块；其中：

时序数据获取模块，用于用于获取不同站点的污染物浓度数据和气象因子数据，包括历史数据和实时数据，根据历史数据对***进行训练；实时数据输入完成训练的***进行实时预测；

特征提取模块，用于提取时序数据获取模块获取的数据的特征，特征提取模块将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取；并将目标站点，即待预测的站点的特征与其他站点的特征

空间注意力网络，用于获取每个辅助站点的注意力权重，即将待预测的站点作为目标站点，其他站点作为辅助站点，将特征提取模块获取的特征通过前馈神经网络得到站点的特征因子，将目标站点的特征因子分别与每个辅助站点的特征因子进行拼接后通过双曲正切函数激活函数计算注意力权值，并通过softmax和注意权值计算每一站点的注意力权重；

多层双向LSTM，用于提取空间注意力网络输出特征的周期性特征；

时序特征提取模块，用于获取已知的未来特征数据，即待预测时间段所在季节以及即将到来的节假日信息，并采用嵌入运算将采集的信息转化为维数向量，并通过神经网络提取其特征；

预测模块，用于获取多层双向LSTM输出的特征与时序特征提取模块输出的特征进行线型加权后得到回归预测结果，将该预测结果作为预测的***的输出。

与现有技术相比，本发明的有益技术效果包括：

(1)本发明相较于其他pm2.5时序预测模型具有精度高的效果，能够对任意特征维度输入的数据集进行特征提取以及时空注意力参数。

(2)设计了一个自适应特征选择网络，能够动态的捕捉数据的线性特征与非线性特征，根据不同数据集的特点自适应决定模型的拟合复杂程度，提升了模型的灵活性。

(3)为该模型设计了一种新的注意机制，能够实现精确空间解释。该注意机制可以同时获得目标站点与辅助站点之间的注意权值。该算法自适应地对不同区域的不同特征状态进行加权，并捕捉各个辅助时间序列与目标时间序列之间的复杂动态关系。

(4)本发明在空间特征提取特征提取后增加了时间特征提取模块，该模块可以捕捉数据的正向和反向的时间趋势，并可以用来提取复杂的周期特。

(5)本发明提出了一种时序特征增强模块，利用了已知的未来数据，该模块基于已知的节假日周期等时序数据，增强了模型的感知视野，最后将过去高维隐特征数据与未来隐特征连接，得到了多尺度的时序特征数据。

(6)本发明提出了一种误差衡量指标，不但利用了预测值和实际观测数值上的绝对误差，同时能够衡量长时序数据的波动程度，能够全面的反应预测值和实际观测数值的区别。

附图说明

图1为本发明实施例的一种基于时空注意力机制的长时序pm2.5预测方法的流程图；

图2为本发明实施例的站点自适应特征提取模块的结构示意图；

图3为本发明实施例的站点空间注意力权重获取模块的结构示意图；

图4为本发明实施例的LSTM模块的结构示意图；

图5为本发明实施例的一种基于时空注意力机制的长时序pm2.5预测网络的结构示意图；

图6为本发明实施例的训练流程示意图；

图7为本发明实施例的一个应用效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于时空注意力机制的自适应长时序pm2.5预测方法，包括以下步骤：

利用空间注意力网络将不同站点提取的特征连接并融合；

本发明提供的一种基于时空注意力的长时序pm2.5预测方法可以应用于如下场景：

一、天气预测场景

对于气候预测的需求，可以给相关机构实现技术上的辅助手段，后台调用本申请提供的pm2.5时序预测模型，对调用者提取未来一段时间的pm2.5预测结果。

二、出行提示场景

例如，当用户需要安排出行计划的时候，为了减少突发天气情况导致的行程破坏，可以给用户提供未来一段时间的空气质量情况，用于辅助用户进行出行计划的安排。

三、空气预警场景

可以辅助相关的政府部门有数据支撑的可靠决策，对于可能发生的空气污染预警，城市和个人可以提前做出反应，例如限制交通出行、暂时关闭重污染的工厂、限制部分人群(有呼吸道等相关疾病)的户外活动、个人提前佩戴口罩等一系列行为来降低可能受到的损害。

为了便于理解，本实施例提出了一种基于时空注意力机制的长时序pm2.5预测方法的具体实施方式，如图1所示，包括：

101、获取不同站点的污染物浓度数据和气象因子数据，对其进行预处理操作。

具体的，采用已有的西安与北京的空气质量数据集进行相应的预处理，在本发明实施例中，以北京的空气质量数据集为例，该数据集由空气质量特征、气象特征和时间特征三部分组成。该研究数据集的空气质量数据来自UCI公共数据及。我们选取北京地区时间范围为2010年1月1日至2014年12月31日的12个监测站的每小时空气质量记录，共43824条。每个空气质量例子都包含六种污染物，即污染物浓度数据包括：PM2.5、PM10、NO2、CO、O3和SO2。同时记录气象，即气象因子数据包括时间、天气、温度、压力、湿度、风速和风向7个属性。

这些数据集在均值和方差上都波动较大。对于数据集，按照时序顺序选择60％、10％、30％作为训练、验证、测试集。对于连续缺失数据，根据前后数据进行线性插值填充缺失数据。本实施例还向每个数据块添加了包括年、月、日、星期几等时间信息。

最后数据集在输入到网络之前，对不同尺度的特征数据进行了归一化的处理，以保证每个特征被分类器平等对待，避免在绝对数值上的小数据特征被大数据特征过度影响的情况。

102、将不同站点预处理后的气象数据输入到特征提取网络中进行特征提取。

将预处理后的训练时序数据样本输入到特征提取网络(Feature ExtractionNetwork)中。首先来自不同站点的时序数据样本作为训练样本会进入各自的特征提取网络之中，其中输入f是单个站点的多维时序特征，对于可能存在的类别特征我们利用嵌入操作将分类特征转换为维数向量，来统一数据。首先用线性激活层来获取数据集的非线性特征数据，然后通过门控线性网络GLU来对映射到隐层的非线性特征进行自适应的选择，对重要的特征进一步放大，抑制一些可能无作用的特征，GLU的公式如下所示：

GLU(μ₀)＝(σ(w₁*μ₀+b₂)⊙(w₁*μ₀+b₃))；

同时为了让模型有自适应选择拟合复杂程度能力，还对输入进行了残差连接，让初始输入再经过线性层获取简单的线性特征最后再将提取的线性特征与非线性特征相加进行自适应的特征选取，整体结构如下：

μ₀＝tanh(w₀f+b₀)

μ₁＝w₁f+b₁

FEN(f)＝GLU(μ₀)+μ₁

103、利用空间注意力网络将提取到的不同站点的特征进行连接融合。

本实施例中，利用空间注意力提取网络对进行特征提取处理后的各个站点的特征进行空间注意力获取，首先让目标站点特征序列通过浅层感知机，即前馈神经网络(FNN)，获取目标特征影响权重h₀，其中h_tar为目标站点特征序列，然后将所有站点的特征序列与目标站点特征因子相连接获取序列特征α_i，包括：

h₀＝w_tarh_tar+b_tar

α_i＝concat(h_i,h₀)

其中，w_tar为目标站点空间权重；b_tar为目标站点空间偏置。

然后，让序列特征通过浅层多层感知和双曲正切函数激活函数(tanh)，得到以下的注意权值：

接下来，通过softmax公式来估计每一站点的空间注意力权重：

其中

是归一化的注意权值，代表不同站点的不同特征赋予的注意力权值，其中i代表站点下标，j代表该站点的第j维特征，L表示每个站点中的特征数。

104、将处理后的特征放入多层双向LSTM中，获取数据的正向和反向趋势，用来提取PM2.5浓度的复杂周期性特征。

得益于复杂的门控机制，lstm可以在长时序数据中选择性的存储和丢弃信息，因此比起传统的RNN能够有效缓解长时序依赖建模时的梯度***和梯度消失的问题，图给出了LSTM单元模块的基本结构。它是由负责存储历史信息的记忆细胞c_t当前时刻隐藏状态h_t的和其他三个负责处理消息传递的门控机制组成。其中遗忘门f_t是由h_t、x_t决定的从上一时刻的c_t-1中获取消息，输入门用于决定从输入x_t和上一时刻隐藏状态h_t-1中获取多少消息，输出门决定从当前c_t获取并输出h_t，公式如下所示：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_t⊙c_t-1+i_t⊙σ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_t⊙tanh(c_t)

其中，σ_g()表示sigmoid函数；W_f表示遗忘门权重；x_t表示当前时刻输入；U_f表示遗忘门权重；b_f表示遗忘门偏置；W_i表示输入门权重；U_i表示输入门权重；b_i表示输入门权重；W_o表示输出门权重；U_o表示表示输出门权重；b₀表示输出门偏置；i_t表示输入门的结果；σ_c()表示sigmoid函数，本实施例中sigmoid函数下标g、c仅表示该sigmoid函数是用于某一些区域的sigmoid函数，例如σ_g()是遗忘门、输入门、输出门的sigmoid函数，σ_c()表示当前细胞的sigmoid函数；W_c表示当前细胞态权重；U_c表示当前细胞态权重；b_c表示当前细胞态偏置。

Bi-LSTM模块作为周期性时间模拟器，可以捕捉数据的正向和反向趋势，并可以用来提取PM2.5浓度周期特征。因此我们选用多层双向lstm用于提取网络的时间特征，相较于用单向LSTM用来获取时序数据的周期特征，其携带了更为丰富的特征信息，能够同时捕捉周期数据的前向和后向趋势，这可以更高效的利用数据的时序信息，从而能够更为精确地对时序数据进行预测。

105、将已知的未来特征数据，通过嵌入层后使用特征提取网络获取未来特征，连接过去特征，最后通过线性层输出回归结果。

受到人类自然活动和气象条件的影响，pm2.5在全球很多区域具有明显的多尺度周期性。已知的未来特征数据包括季节、即将到来的节假日、周末等。不同于pm2.5等连续数字特征，这些未来的时间周期特征是可以提前获取的，他们与预测的结果有着直接时间对应联系，对最终预测结果有辅助作用。

为了统一数值特征和类别特征，采用嵌入运算将类别特征转化为维数向量。这种操作类似于自然语言处理任务中的单词嵌入，可以通过网络进行训练。通过这种方式，类别特征具有“语义”意义，可以直接输入到神经网络中。将经过嵌入运算的未来时间特征进行特征提取后，与处理后的过去时序特征连接融合后得到回归预测结果。

106、使用考虑数据的标准差波动和均值误差的损失函数，对网络进行迭代训练直至收敛。

在该发明中，我们使用包含L2权值正则化的损失函数来更新模型中的参数，可以防止深度网络过拟合，避免模型中某个特征优于模型预测性能的情况。损失函数可被定义如下：

其中MSE定义如下，参数估计中均方误差是指参数估计值与参数真值之差平方的期望值，其中N是预测样本数量。

Std^*，Std定义如下所示，标准差也被称为标准偏差，或者实验标准差，在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同，因此为了同时反应预测序列和真实序列之间的数据波动差别，我们将标准差加入了公式，其中Std^*表示的是预测序列，Std代表的是真实序列，y^-代表真实序列的均值；y^*-表示预测序列的均值；y_(j)代表真实序列中第j个元素的值；

表示预测序列中第j个元素的值，预测序列和真实序列中每个元素即为一个站点。

w₂为L2正则化，w₂的定义表示为：

其中，λ为正则化参数，w_i为第i个神经网络的权重参数，M为神经网络中的参数个数。设置w₂目的是限制参数过多或者过大，避免模型更加复杂。例如，当使用多项式模型，如果模型中包含了高阶多项式，模型可能过于复杂，容易发生过拟合。所以，为了防止过拟合，可以将其高阶部分的权重限制为0，这样，就相当于从高阶的形式转换为低阶。

因此，当预测时序样本长度为N时，损失函数也可以写成如下形式。

107、将待测的站点数据输入到训练完成的基于时空注意力的PM2.5预测网络中，输出预测结果。

在本发明实施例中，可以将待遇测时序数据输入神经网络，并根据预测实际需求，动态选择预测长度，同时可以从过去时序数据输出过去回归结果，或者联合未来时间特征网络输出过去、未来特征连接融合结果，该模型可以应用于任何涉及多元时空序列的应用，不仅仅应对pm2.5，同时为预测提供了时空可解释性。

在本发明另一些实施例中，本发明还提供了一种基于时空注意力的长时序pm2.5预测的***，所述***包括：

时序数据获取模块，用于获取不同站点的污染物浓度数据和气象因子数据。

数据预处理模块，用于对不同站点的污染物浓度数据和气象因子数据进行预处理。

基于时空注意力的神经网络训练模块，将预处理后的训练时序数据样本输入到特征提取网络中，让初始输入获取线性特征同时提取非线性特征，最后进行自适应的特征选取。然后对经过特征提取处理后的各个站点的特征，利用空间注意力提取网络进行空间注意力权重的获取，得到各个站点的注意力权重，之后选用多层双向lstm用于提取网络的时间特征，它能够同时捕捉周期数据的前向和后向趋势，、将已知的未来特征数据，通过嵌入层后使用特征提取网络获取未来特征，连接过去特征，最后通过线性层输出回归结果；联合考虑数据的标准差波动和均值误差的的损失函数，对神经网络进行迭代训练直至收敛；

输出模块，用于输出待测的站点时序数据的预测结果。

在一些实施例中，本发明可以使用ADAM优化器进行训练调节，经过多轮训练后，神经网络趋于稳定，迭代训练结束，训练过程如图6所示：

获取不同站点的污染物浓度数据和气象因子数据后，对数据集进行预处理；

构建出基于时空注意力的神经网络模型；

使用数据集训练神经网络，并进行多次迭代；

将神经网络的输出结果与时间序列真实值进行损失求解，直至损失趋于稳定；

此时，结束训练并保存训练好的神经网络模型。

训练完成的神经网络模型如图5所示，其中自适应特征提取模块如图2所示，空间注意力特征提取模块如图3所示，时间注意力提取模块如图4所示。

在一些实施例中，所述神经网络训练模块包括过去特征网络模块和未来特征网络模块，其中过去特征网络模块由自适应特征提取模块、空间注意力特征提取模块，时间注意力提取模块构成，该网络模块用于过去特征的提取；而未来特征网络模块由特征嵌入模块、特征提取模块构成。

所述自适应特征提取模块让各个站点初试输入获取线性特征的同时提取非线性特征，最后进行自适应的特征选取，空间注意力特征提取模块用于各个站点的空间注意力权重的获取，时间注意力提取模块用于获取数据的复杂周期模式，未来特征网络模块是基于过去特征的回归结果，融合了未来的时间特征后做进一步的回归预测。

图7是本发明的时序预测结果图，获取原始的过去未来时序数据后，对数据做缺失值填充、数据归一化、数据对齐、数据清理的预处理，使输入更为稳定可靠；将处理好的数据输入到基于时空注意力的pm2.5时序预测网络中进行特征提取及时序预测，从图像中可以看出最终输出的包含预测值和真实值的预测结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。