CN114694767A

CN114694767A - 基于时空图常微分方程网络的pm2.5浓度预测方法

Info

Publication number: CN114694767A
Application number: CN202210603132.8A
Authority: CN
Inventors: 陈赓; 曾庆田; 王超; 段华; 邵睿; 徐先杰; 张旭
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-07-01
Anticipated expiration: 2042-05-31
Also published as: CN114694767B

Abstract

本发明公开了一种基于时空图常微分方程网络的PM2.5浓度预测方法，预测场景是工业园区，属于智能大气感知技术领域，包括如下步骤：在工业园区内设置若干气体监测站，通过各个气体监测站采集园区内PM2.5浓度、空气湿度、风向三种大气数据，并进行数据预处理和相关性分析；根据高斯扩散模型，融合监测站欧氏距离和风向数据构建邻接矩阵；把工业园区中所有气体监测站构建成图的形式；对空气湿度数据进行数据处理；构建时空图常微分方程网络模型；将PM2.5浓度数据、邻接矩阵以及空气湿度数据输入到时空图常微分方程网络进行模型训练。本发明提出的时空图常微分方程网络具有更高的模型训练效率，对PM2.5浓度具有更高的预测精度。

Description

基于时空图常微分方程网络的PM2.5浓度预测方法

技术领域

本发明属于智能大气感知技术领域，具体涉及基于时空图常微分方程网络的PM2.5浓度预测方法。

背景技术

随着我国经济的快速发展，工业化和城市化进程逐步加快，以PM2.5为主的空气污染物造成的空气污染问题越来越突出，由此引发的空气污染不仅危害着人们的身体健康，严重时还会干扰社会秩序，对人们的生产和生活产生了越来越严重的影响，工业园区是PM2.5的主要来源之一，对工业园区的PM2.5浓度进行预测就显得格外重要。

目前，PM2.5浓度预测的方法主要分为基于统计规律模型的统计预测方法、基于传统机器学***均自回归模型（ARIMA）；（2）线性回归方法（LR）；（3）支持向量机回归方法（SVR）；（4）基于长短时记忆网络的方法（LSTM）；（5）基于卷积神经网络的方法（CNN）；（6）时空图卷积神经网络方法（STGCN）。这些解决PM2.5浓度预测的方法，分别从空间因素、时间因素及时空因素等方面加以考虑。精准的对工业园区PM2.5浓度进行预测，对于园区工作人员的生产生活以及城市周边环境管控而言都具有指导意义。但是，工业园区PM2.5浓度的精准预测是一个非常有挑战性的问题，这主要是由于以下三个原因。第一，工业园区PM2.5的来源具有多样性，在风场的作用下，PM2.5会自由扩散，这使得各个监测站之间具有空间依赖性，这种空间依赖性不仅仅是局部的，更是具有大尺度的全局依赖性。另一方面，工业园区PM2.5浓度在时间维度上也具有依赖性，某个时刻的浓度值与其相近时刻和某一天相对应时刻的浓度值具有高度相关性。第二，空气湿度对PM2.5浓度产生了很大的影响，影响某个区域PM2.5浓度的原因是多样化的。当进行PM2.5浓度预测时，不能只从历史数据的角度去挖掘PM2.5浓度隐含的规律模式，还应该考虑风向、湿度等对PM2.5产生的影响。第三，如何在考虑时空依赖并结合外部影响因素的情况下达到较高的预测精度，并且使模型的训练效率更高，也是一个困难的问题。

发明内容

针对现有技术中存在的上述问题，本发明提出了一种基于时空图常微分方程网络的PM2.5浓度预测方法，解决了工业园区PM2.5浓度预测不够精准以及模型训练耗时的问题。

本发明的技术方案如下：

一种基于时空图常微分方程网络的PM2.5浓度预测方法，采用构建的时空图常微分方程网络对工业园区PM2.5浓度进行实时预测，具体包括如下步骤：

步骤1、在工业园区内设置若干气体监测站，通过各个气体监测站采集园区内PM2.5浓度、空气湿度、风向三种大气数据，并进行数据预处理和相关性分析；

步骤2、根据高斯扩散模型，融合监测站欧氏距离和风向数据构建邻接矩阵；

步骤3、把工业园区中所有气体监测站构建成图的形式来表征监测站之间在空间上的相关性，整个数据集构造成图时间序列数据，图中数据包括邻接矩阵和PM2.5浓度数据；

步骤4、对空气湿度数据进行数据处理；

步骤5、构建时空图常微分方程网络模型；

步骤6、将PM2.5浓度数据、邻接矩阵以及空气湿度数据输入到时空图常微分方程网络进行模型训练；

步骤7、各个气体监测站实时采集园区内当前时刻的PM2.5浓度、空气湿度、风向三种大气数据，基于训练完成的模型对园区内的PM2.5浓度进行实时预测。

进一步地，步骤1的具体过程如下：

步骤1.1、对采集到的工业园区PM2.5浓度、空气湿度、风向数据进行数据预处理，数据预处理包括数据填充、数据筛选、数据标准化；具体为：

步骤1.1.1、数据填充；对于数据的缺失值，用相关系数最大的监测站的值来填补；

步骤1.1.2、数据筛选；对数据进行重采样，将时间间隔调整为10分钟，保证数据集的规整性；

步骤1.1.3、数据标准化；通过z-score方法对数据进行标准化，加快模型训练过程；

步骤1.2、分析各个气体监测站PM2.5浓度、空气湿度数据之间的相关性，分析PM2.5浓度和空气湿度之间的周期性、不同气体监测站的差异性以及空气湿度数据和风向对PM2.5浓度的影响。

进一步地，步骤2的具体过程如下：

步骤2.1、根据高斯扩散模型，在工业园区场景下，将高斯扩散模型抽象为公式(1)，

(1)

由于工业园区的地理空间有限，各个监测站在同一时刻的风向看作是相同的，所以公式(1)简化为(2)，其中常数项省略；

(2)

其中，cost(E _ij)用来描述空气污染物从监测站i到监测站j扩散的难度；E _ij是两监测站之间的边；D _i和D _j表示ij两监测站的风向方位角；D _M表示E _ij的方位角；L _ij代表E _ij的长度，也就是监测站i与监测站j的距离；F表示计算方位角差的绝对值的函数；

步骤2.2、构建邻接矩阵，邻接矩阵A的各个元素为监测站之间的空间关联程度a _ij，表示为公式(3)，

(3)

其中，i和j都表示监测站的序号，也分别表示为邻接矩阵的行和列。

进一步地，步骤3的具体过程如下：

步骤3.1、将PM2.5浓度数据构造成形状为[T,N,F]的矩阵形式，T代表数据集总的时间跨度；N代表监测站个数；F表示每个监测站所利用的特征数，这里只用PM2.5浓度，所以F等于1；

步骤3.2、将步骤2构建的邻接矩阵构造成形状为[N,N]的矩阵形式，N代表监测站个数。

进一步地，步骤4的具体过程如下：

步骤4.1、将空气湿度数据构造成形状为[T,1]的矩阵形式，T代表数据集总的时间跨度；

步骤4.2、将处理后的空气湿度数据根据滑窗法划分数据，最终的形状为[T-m-n+1,m,1]，T代表数据集总的时间跨度；m代表观测窗的长度；n代表预测窗的长度。

进一步地，步骤5的具体过程如下：

时空图常微分方程网络模型由时空图常微分方程模块、辅助特征提取模块和输出模块组成；

该时空图常微分方程网络模型共包括两个时空图常微分方程模块，每个时空图常微分方程模块均采用三层结构，由两个时间卷积网络和一个STGODE层组成，这种结构捕获时空信息流更充分，堆叠的三层结构进一步扩展了模型挖掘PM2.5复杂时空相关性的能力；

其中，STGODE层的公式表示为(5)和(6)：

(5)

(6)

其中，H(t)表示第t层的输出，H ₀表示初始输入，ODESolve为常微分方程求解器；

是归一化的邻接矩阵，U是时间变换矩阵，I是单位矩阵，W是一个可学习的参数矩阵；

时间卷积网络计算过程表示为：

(7)

其中，X是时间卷积网络的输入，

是时间卷积网络第l层的输出，W ^l表示时间卷积网络第l层的卷积核，

表示激活函数；为了扩大感受野，令

；L为时间卷积网络的总层数；

两个串联的时空图常微分方程模块的函数抽象表示为：

(8)

其中，f ₁表示STGODE模块函数，

表示PM2.5浓度数据，A表示邻接矩阵，O _h表示该模块所提取的PM2.5初步特征；

在辅助特征提取模块中，引入了两层全连接神经网络对空气湿度数据进行嵌入学习；空气湿度的初步特征表示为O _other，其表达式如公式(9)所示，

(9)

其中，

和

分别表示第一层和第二层全连接神经网络的权值矩阵，

和

分别表示第一层和第二层全连接神经网络的偏置矩阵，

是激活函数，m _t 表示在时间t的空气湿度；

在输出模块中，将初步特征O _h和O _other进行特征的融合；使用拼接的方法进行特征融合，在该模块中，首先执行最大池操作以选择性地聚合来自不同块的信息，然后设计了一个两层MLP作为输出层；本发明将输出模块函数表示为f ₂，将融合后的特征表示为特征向量O，如公式(10)，则最终的预测值表示为公式(11)；

(10)

(11)。

进一步地，步骤6的具体过程如下：

步骤6.1、将数据输入网络中，通过时空图常微分方程模块，对工业园区PM2.5浓度进行时空相关性建模；通过辅助特征提取模块，对空气湿度数据进行特征建模；

步骤6.2、将上述两种模块建模所得的初步特征进行特征融合，并按照指定维度拼接成一个新的张量；

步骤6.3、将处理好的张量输入到输出模块中建模得到训练好的模型；

步骤6.4、将测试集输入到训练好的模型中，得到最终的预测结果。

本发明所带来的有益技术效果：

本发明提出了一种基于时空图常微分方程网络的工业园区PM2.5浓度预测方法，从时间和空间因素的特征出发，提出的时空图常微分方程网络具有更高的模型训练效率，模型训练时间更短，除此之外对工业园区PM2.5浓度还具有更高的预测精度；本发明提出了一种邻接矩阵的构建方法，该方法可以更充分的表征各个监测站之间的空间关联；本发明充分挖掘了空气湿度对PM2.5产生的影响，进一步提高了模型预测的准确度。

附图说明

图1 为本发明基于时空图常微分方程网络的PM2.5浓度预测方法的流程图；

图2为本发明数据预处理流程图；

图3为本发明数据集来源示意图；

图4为本发明时间维度上不同监测站PM2.5浓度的动态特性曲线；

图5为本发明描述空气湿度与PM2.5浓度相互关系的曲线；

图6 为本发明对工业园区所有监测站构建的拓扑关系示意图；

图7为本发明时空图常微分方程网络示意图；

图8为本发明实验中各个模型在测试集上预测值与真实值的曲线图；

图9为本发明实验中各个模型在训练过程中的训练时间比较图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明构建了一种全新的时空图常微分方程网络，基于该网络对工业园区内的PM2.5浓度进行实时预测。如图1所示，本发明实施例的方法主要包括以下过程：在工业园区内设置若干气体监测站，通过各个气体监测站采集园区内PM2.5浓度、空气湿度、风向三种大气数据，并进行数据预处理和相关性分析；根据高斯扩散模型，融合监测站欧氏距离和风向数据构建邻接矩阵；把工业园区中所有气体监测站构建成图的形式来表征监测站之间在空间上的相关性，整个数据集构造成图时间序列数据，图中数据包括邻接矩阵和PM2.5浓度数据；对空气湿度数据进行数据处理；构建时空图常微分方程网络模型；将PM2.5浓度数据、邻接矩阵以及空气湿度数据输入到时空图常微分方程网络进行模型训练；各个气体监测站实时采集园区内当前时刻的PM2.5浓度、空气湿度、风向三种大气数据，基于训练完成的模型对园区内的PM2.5浓度进行实时预测。

基于构建的时空图常微分方程网络对工业园区PM2.5浓度进行预测的方法具体包括如下步骤：

步骤1、在工业园区内设置若干气体监测站，通过各个气体监测站采集园区内PM2.5浓度、空气湿度、风向三种大气数据，并进行数据预处理和相关性分析；具体过程如下：

步骤1.1、将采集到的工业园区PM2.5浓度、空气湿度、风向数据进行数据预处理，数据预处理流程如图2所示，包括数据填充、数据筛选、数据标准化；具体为：

步骤1.1.1、数据填充；对于数据的缺失值，用相关系数最大的监测站的值来填补，尽可能多的保留数据的变化特征；

步骤1.1.2、数据筛选；对数据进行重采样，将时间间隔调整为10分钟，保证数据集的规整性，重采样时间间隔过短会出现数据的冗余，过长则会丢失部分数据特征。

步骤1.1.3、数据标准化；通过z-score方法对数据进行标准化，以加快模型训练过程。

图3是数据集来源示意图。本发明实施例所使用的数据集来自东明南工业园区真实的大气数据，收集这些数据的设备主要是对工业园区排放的烟气、有毒有害气体进行监测的物联网感知设备（比如，通过物联网相连的气体监测站），这些对大气监测的感知设备按照点、线、面的布局原则分布在园区边界、企业边界、企业内部、敏感区域等，通过大气监测网关设备将监测大气感知设备采集的数据利用4G或有线网络上传至数据库。然后，电脑从数据库中提取数据处理之后形成本发明所使用的数据集。

图4是时间维度上不同监测站PM2.5浓度的动态特性曲线，通过图4，可以得出如下结论：

(1) 数据周期性。不同监测站的PM2.5浓度呈现相同的周期性，例如：在图4中，01#、07#、08#分别为1号监测站、7号监测站、8号监测站，对比发现1号监测站、7号监测站、8号监测站的PM2.5浓度变化规律相同。

(2) 区域数据差异性。不同监测站的PM2.5浓度存在较大的差异性，例如：在图4中，对比发现8号监测站的PM2.5浓度大于1号监测站，1号监测站的PM2.5浓度大于7号监测站，因为8号监测站受到周边污染源的影响更大，7号监测站周边由于几乎没有污染源，所以受到周边污染源的影响较小，进而PM2.5浓度数值最小。

图5是描述空气湿度与PM2.5浓度相互关系的曲线，05#、07#分别为5号监测站、7号监测站，通过图5，可以得出如下结论：空气湿度变化趋势与PM2.5变化趋势基本一致，都具有周期性，但是空气湿度的变化趋势要超前于PM2.5。当空气湿度达到最大值时，PM2.5并没有达到最大值，反而在空气湿度逐渐下降时，PM2.5呈现上升趋势直至最大值。这是因为当空气湿度增大时，空气中的水汽含量变大，空气中的PM2.5颗粒物周围被水分包裹，导致其密度变小，进而导致PM2.5浓度减小。由以上分析可知，空气湿度的确是影响PM2.5浓度水平的一个关键因素。

步骤2、根据高斯扩散模型，融合监测站欧氏距离和风向数据构建邻接矩阵；各个监测站周围的PM2.5会随着风场进行自由扩散，所以风场是影响PM2.5的一个重要因素。根据高斯扩散模型的通用模式，在工业园区场景下将高斯扩散模型抽象为工业园区场景下的适配模式，根据风向数据，计算扩散代价，进而构造邻接矩阵。具体过程如下：

(1)

由于工业园区的地理空间有限，各个监测站在同一时刻的风向可以看作是相同的，所以公式(1)又可简化为(2)，其中常数项可以省略。

(2)

其中，cost(E _ij)用来描述空气污染物从监测站i到监测站j扩散的难度；E _ij是两监测站之间的边；D _i和D _j表示ij两监测站的风向方位角；D _M表示E _ij的方位角；L _ij代表E _ij的长度，也就是监测站i与监测站j的距离；F表示计算方位角差的绝对值的函数。

(3)

如图6所示，对某工业园区所有气体监测站构建拓扑关系，图中数字1-9为监测站序号，a表示监测站之间的空间关联程度，例如，图中a ₂₁表示2号监测站与1号监测站之间的空间关联程度，即PM2.5从2号监测站到1号监测站扩散的难度。在风场的影响下，该拓扑图为有向图。在复杂的工业园区场景下，构造网格化数据是不切实际的，所以本发明将工业园区的监测站分布图构造成图的形式来表征监测站之间在空间上的相关性。将某时刻N个监测站的空间分布抽象为一个图G=(V,E,A)，其中V是监测站站点的有限集合；E为边集；A为图的邻接矩阵。

步骤3、把工业园区中所有气体监测站构建成图的形式，整个数据集构造成图时间序列数据，图中数据包括邻接矩阵和PM2.5浓度数据；具体过程如下：

步骤4、对空气湿度数据进行数据处理；具体过程如下：

步骤4.2、将处理后的空气湿度数据根据滑窗法划分数据，最终的形状为[T-m-n+1,m,1]，T代表数据集总的时间跨度；m代表观测窗的长度；n代表预测窗的长度；

步骤5、构建时空图常微分方程网络模型；

如图7所示，时空图常微分方程网络模型由时空图常微分方程模块、辅助特征提取模块和输出模块组成，每个模块的介绍如下。

普通图卷积网络通过使用图卷积操作聚合它们自己和邻居的特征来更新节点的嵌入，卷积运算的经典形式可以表述为公式(1)：

(4)

其中，GCN表示普通图卷积网络，H _k表示第k个图卷积层的输入，

表示激活函数，

是归一化的邻接矩阵，W是一个可学习的参数矩阵。

然而，当网络变得更深时，这种图神经网络已被证明存在过度平滑的问题，这在很大程度上限制了对远距离依赖关系建模的能力。出于这个原因，本发明引入了STGODE层。STGODE层是通过神经常微分方程对普通图卷积网络的改进，因此它可以构建更深的网络，并且模型训练时的参数更少，从而具有更高的训练效率。STGODE层的公式表示为(5)和(6)：

(5)

(6)

其中，H(t)表示第t层的输出，H ₀表示初始输入，ODESolve为常微分方程求解器；U是时间变换矩阵，I是单位矩阵。

PM2.5浓度具有时间相关性，如何充分的捕获这种相关性也十分重要。现有工作大多使用循环神经网络来捕获时间相关性，但这些网络存在迭代耗时等问题。

时间卷积网络(TCN)是2018年提出的时序卷积神经网络模型，它可以大规模的进行并行处理，因此在训练和验证时网络的速度都会更快；可以通过增加层数、改变膨胀系数和滤波器的大小改变感受野，历史信息长短上更加灵活，避免了RNN中的梯度弥散和梯度***的问题；训练时占用的内存更少，尤其是对于长序列。为了提高模型对长期时间依赖的建模能力，本发明采用TCN。其计算过程可表示为：

(7)

其中X是TCN的输入，

是TCN第l层的输出，W ^l表示TCN第l层的卷积核，

表示激活函数。为了扩大感受野，令

；L为时间卷积网络的总层数。

时空图常微分方程网络模型共包括两个时空图常微分方程模块，每个时空图常微分方程模块均采用三层结构，由两个时间卷积网络(TCN)和一个STGODE层组成，这种结构可以更充分的捕获时空信息流，堆叠的三层结构进一步扩展了模型挖掘PM2.5复杂时空相关性的能力。两个时空图常微分方程模块可共同抽象表示为：

(8)

其中，f ₁表示STGODE模块函数，

表示PM2.5浓度数据，A表示邻接矩阵，O _h表示该模块所提取的PM2.5初步特征。

在辅助特征提取模块中，引入了两层全连接神经网络对空气湿度数据进行嵌入学习。空气湿度的初步特征表示为O _other，其表达式如公式(9)所示。

(9)

其中，

和

分别表示第一层和第二层全连接神经网络的权值矩阵，

和

分别表示第一层和第二层全连接神经网络的偏置矩阵，

是激活函数，m _t表示在时间t的空气湿度。

在输出模块中，将初步特征O _h和O _other进行特征的融合。特征融合的方式有很多，本发明使用拼接的方法，因为该方法可以最大可能的保留不同特征的差异性，如果使用特征相加的融合方式，会把不同的特征混合到一个变量中，进而弱化了不同特征的差异性。在该模块中，首先执行最大池操作以选择性地聚合来自不同块的信息，然后设计了一个两层MLP作为输出层。本发明将输出模块函数表示为f ₂，将融合后的特征表示为特征向量O，如公式(10)，则最终的预测值可表示为公式(11)。

(10)

(11)

步骤6、将PM2.5浓度数据、邻接矩阵以及空气湿度数据输入到时空图常微分方程网络进行模型训练；具体过程如下：

步骤6.3、将处理好的张量输入到输出模块中建模得到训练好的模型，具体训练参数如表1所示：

表1 训练模型的参数

步骤6.4、将测试集输入到训练好的模型中，得到最终的预测结果。预测结果的好坏用平均绝对误差（MAE）、均方根误差（RMSE）以及平均绝对百分比误差（MAPE）来衡量，与基准模型进行比较。

为了证明本发明方法训练出的模型的可行性和优越性，与现有技术LSTM、GRU、STGCN、STAM-STGCN做了对比实验，实验结果如表2所示：

表2 各个模型的性能比较

MAE、RMSE、MAPE值越小代表模型预测能力越强，通过实验结果可以看出，本发明方法取得了最好的预测成绩，MAE、RMSE、MAPE值均为最小。为了更直观的表示本发明方法的预测能力，绘制了STAM-STGCN、STGCN模型和本发明模型在测试集上的预测值与测试集真实值的曲线图，如图8所示。从图8中可以看出，本发明方法模型的预测值和真实值之间呈现最佳拟合。

为了进一步研究比较各模型的性能，绘制上述基准模型中最优的STAM-STGCN模型和本发明模型在训练过程中的训练时间比较图，如图9所示。从模型训练时间对比图中可以看出，本发明方法模型具有更快的训练时间，平均训练时间为62秒，而对比模型的平均训练时间为76秒，在训练时间上缩短了18.4%。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。