CN114997506B

CN114997506B - 一种基于链路预测的大气污染传播路径预测方法

Info

Publication number: CN114997506B
Application number: CN202210690966.7A
Authority: CN
Inventors: 李勇; 吴京鹏
Original assignee: Lanzhou Qidu Digital Polymer Technology Co ltd; Northwest Normal University
Current assignee: Lanzhou Qidu Digital Polymer Technology Co ltd; Northwest Normal University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2024-05-14
Anticipated expiration: 2042-06-17
Also published as: CN114997506A

Abstract

本发明公开了一种基于链路预测的大气污染传播路径预测方法。包括基于转移熵计算大气污染物PM2.5在不同监测站间的传播量；将复杂的时序数据转化为容易建模分析的网络数据，强化关注不同监测站间的污染物传播关系；通过网络表征学习技术将网络节点进行向量化表示，基于注意力机制和网络邻居聚合技术，得到有较低数据噪音的节点向量表示；通过哈达玛积得到网络中连边对应的向量表示，将大气污染物传播路径预测问题转化为一个二分类问题。该方法有效解决了大气污染传播路径数据收集难度大、预测结果滞后、模型不易迁移等问题，该方法在大气污染物传播路径预测问题上有较高的适应性和稳定性。

Description

一种基于链路预测的大气污染传播路径预测方法

技术领域

本发明专利涉及一种基于转移熵的时序数据网络构建方法和一种基于网络表征学习的链路预测方法。在大气污染物PM2.5传播路径预测领域具有重要的应用和推广价值。

背景技术

随着人类工业与科技的进步，大气污染已成为影响人类身体健康和日常生活的重要因素，精准地预测污染物的传播路径是预防大气污染的重要手段。现有大气污染传播路径预测模型主要包括基于概率论的数学模型和基于深度学习的图像模型。数学模型的建立往往依赖大量的先验数据，如：建筑密度、人口密度、人流量、道路宽度等，此类数据的采集过程需要耗费大量人力物力，模型求解难度大，且在城市基建改造的情况下，易对模型精度造成较大的不利影响。图像模型的建立往往依赖城市某个区域的即时摄影图像或卫星拍摄的高空图像，在大气变化剧烈的情况下，图像模型的感知范围会受到一定限制，且不同的图像之间缺少关联关系，使得图像模型的预测结果具有明显的滞后性。如：在距离当前位置3km以外的位置发现污染较为严重，在当前位置拍摄的图像并不一定能够及时的感知到此现象。

链路预测作为网络科学领域中一种常见的数据分析方法，旨在推断任意两节点间产生连边关系的概率大小。以网络科学的视角建立大气污染物PM2.5传播路径预测模型，可以更好的刻画大气污染物在城市中不同位置的转移关系，而且在降低了对先验数据依赖的同时，提高了模型的普适性。

发明内容

为了克服现有技术的不足，在本发明技术方案中假设收集到的PM2.5时序数据矩阵为X，该矩阵包含的监测站数量N行，每个检测站包含PM2.5浓度值数据M列。基于转移熵和PM2.5时序矩阵X构建的大气污染物PM2.5传播网络为G＝(V,E)，其中V代表网络的节点集合，节点代表监测站；E代表网络的连边集合，连边代表PM2.5在不同监测站间的传播关系。通过给定初始节点在网络中随机游走，得到代表节点局部拓扑结构的向量表示矩阵H。通过图神经网络的节点邻居聚合技术对H进行优化，得到最终的节点向量表示矩阵H'。随机选取网络中存在的连边和不存在的连边构建样本空间，连边向量用所构成该连边的两个节点的表征向量的哈达玛积表示。通过逻辑回归分类器，可得到模型的整个预测输出，即大气污染物PM2.5在监测站间传播的概率值矩阵Y。

本发明主要包括五个部分：(1)对PM2.5时序数据矩阵X，根据时序间隔选定K个时间窗口，按行两两之间计算出N(N-1)组数据，每组数据为K个转移熵值。(2)以监测站为节点，同时对每组K个转移熵值求出平均值和标准差，根据平均值和标准差确定连边，构建大气污染物传播网络G＝(V,E)。(3)依次给定初始节点，在网络中随机游走，得到节点局部拓扑结构向量化表示矩阵H。(4)从网络节点集V中找出m个重要节点，计算重要节点与所有节点的相似度矩阵Sim，通过Sim矩阵可得到注意力系数矩阵A，通过注意力系数与图神经网络的邻居聚合过程得到最终的节点向量表示矩阵H'。(5)构建连边的训练集和测试集，计算表示两节点的向量哈达玛积，得到表示两节点对应的连边向量，通过逻辑回归分类器解决该二分类问题。下面分别介绍以上五个部分的具体内容：

1、对PM2.5时序数据矩阵X，根据时序间隔选定K个时间窗口，按行两两之间计算出N(N-1)组数据，每组数据为K个转移熵值。每个转移熵的大小代表在规定时间窗口的情况下，由一个监测站到另一个监测站PM2.5污染物传播量。

2、以监测站为节点，同时对每组K个转移熵值求出平均值和标准差。通过平均值衡量污染物传播的量，平均值越大，污染物在两监测站点间的传播量越大；通过标准差衡量传播关系存在的稳定程度，标准差越小，污染物在两监测站点间的传播关系越稳定。选取监测站作为节点，选取平均值大、标准差小的节点对组成连边，构建出大气污染物PM2.5传播网络G＝(V,E)。

3、依次给定初始节点，在大气污染PM2.5传播网络G中随机游走，得到N条随机游走路径，通过词向量化方法表达该路径，即得到了代表局部网络结构的特征向量矩阵H。

4、从网络G的节点集合V中选取m个重要节点，与所有节点进行一次相似度计算，得到相似度矩阵Sim，通过计算Sim和一个放大因子矩阵L的乘积，可得到注意力系数矩阵A，通过行归一化，将A中元素的取值范围映射到区间[0,1]，结合图神经网络的节点邻居聚合技术，对H中的元素进行优化调整，最终得到用于链路预测的节点向量表示矩阵H'。

5、将网络G的连边集合中所有元素作为正例样本加入样本空间，通过负采样技术，选取与正例样本等量的反例样本加入样本空间。从样本空间中随机抽取训练集与测试集，根据构成连边的两个节点向量表示，计算出哈达玛积表示连边对应的向量，通过逻辑回归分类器，解决该二分类问题。

基于链路预测的大气污染传播路径预测方法(xx)详细步骤如下：

步骤1：通过步骤1.1、1.2、1.3分别计算转移熵，通过转移熵描述PM2.5在不同监测站间的转移量，之后转入步骤2；令矩阵X表示PM2.5时序数据矩阵，共有N行，每行代表一个监测站，每行有M列，每列代表一个采集时间，矩阵中每个元素代表监测站在该采集时间采集到的PM2.5浓度值；令具有下标i的X_i表示监测站i在M个采集时间采集到的PM2.5浓度值所构成的行向量。步骤1.1、1.2和1.3详细描述如下：

步骤1.1：数据采集与清洗：在城市密布空气质量监测站，每间隔1小时记录一次当前区域的PM2.5浓度值，对于因设备故障未能记录到的缺失值，以其前后一小时PM2.5浓度的平均值进行填充，得到PM2.5时序数据矩阵X，后转入步骤1.2。

步骤1.2：对于PM2.5时序数据矩阵X，取第1行数据的行向量X₁，与剩余i-1行数据的行向量X₂,X₃…,X_i，将X₁记为Y，任意X_i记为X，利用公式即可计算出X₁对X_i的转移熵，其中x与y的下标n代表行向量的维度是n维，x与y的上标k和l代表计算转移熵所指定的时间窗口大小，通常分析4个小时内的PM2.5传播量就可以满足现实需求，因此，在k＝l＝1,2,3,4四种情况下，任意两监测站可计算出4个转移熵，记为一组，后转入步骤1.3。

步骤1.3：重复步骤1.2，对于PM2.5时序数据矩阵X，将所有的行向量和除自身外所有的行向量计算转移熵，即可计算出N(N-1)组转移熵，每组转移熵代表了两个监测站分别在1、2、3、4个小时内的PM2.5转移量，后转入步骤2。

步骤2：通过步骤2.1、2.2、2.3构建大气污染物传播网络，之后转入步骤3；令G＝(V,E)表示大气污染物传播网络，其中V代表网络的节点集合，E代表网络中的连边集合。令表示监测站i对监测站j以1小时为时间窗口计算得到的转移熵。步骤2.1和2.2的详细描述如下：

步骤2.1：对于任意两个监测站i,j，可得到4个转移熵利用公式可计算出该组数据的平均值，利用公式/> 可计算出该组数据的标准差，对N(N-1)组转移熵经该步骤计算得到N(N-1)个平均值和标准差，后转入步骤2.2。

步骤2.2：对以平均值为x轴，标准差为y轴，可构建平面直角坐标系xOy，将步骤2.1计算出的N(N-1)个平均值和标准差在xOy中表示。利用计算出整个样本均值的平均值，利用/> 计算出整个样本标准差的平均值，在xOy中，作平行于x轴的平行线y＝STDEV，作平行于y轴的平行线x＝AVG，将xOy划分为四个区域，后转入步骤2.3。

步骤2.3：对于xOy右下角区域的点，其平均值在样本空间中偏小，标准差在样本空间中相对偏小，转移熵平均值越大表明PM2.5传播量越大，转移熵标准差越小表明两站点间存在的传播关系越稳定。因此，将xOy右下角区域的点涉及的所有监测站，加入网络G的节点集合V，并将构成该点的两个监测站，在其之间构建连边，加入网络G的连边集合E，后转入步骤3。

步骤3：由步骤2计算得来大气污染物PM2.5传播网络G＝(V,E)，可通过随机游走和向量化技术得到表示节点局部网络结构的特征向量矩阵H，H共有N行，N为监测站个数，即V中的元素个数，共有dim列，dim为向量化技术的输出向量维度。步骤3的详细描述如下：

步骤3.1：对于大气污染物传播网络G＝(V,E)，给定一个节点v_i∈V，在节点v_i的一阶邻居节点中随机选取一节点v_j进行随机游走，给定一个随机游走步长k，通过该过程即可得通过随机游走得到一个节点访问序列后转入步骤3.2。

步骤3.2：对于3.1描述的过程，Node2vec技术通过引入深度随机游走参数d，广度随机游走参数b，计算出每次随机游走可能访问到的节点的概率，根据该概率值进行游走，使得到的节点访问序列具有一定的可控性，并且可以将得到的节点访问序列表达为取值范围在[0,1]的浮点数向量表示，/>向量即表达了节点v_i在网络G的局部拓扑结构，/>的维数可以通过dim参数进行指定，dim通常取128，记所有节点向量组成的矩阵为H，后转入步骤4。

步骤4：对步骤3得到的节点向量矩阵H，考虑到Node2vec技术随机游走过程产生的数据噪声和无监督的训练方式带来的不利影响，本发明通过引入图注意力机制和节点邻居聚合技术，对节点向量表示进行优化调整，通过步骤4.1、4.2、4.3得到最终用于链路预测的节点向量矩阵H'，步骤4.1、4.2和4.3的详细描述如下：

步骤4.1：从大气污染传播网络图G中选取前m个度最大的重要节点，计算相似度矩阵Sim_n×m＝Similarity(WH_n×dim,WH_m×dim)，Similarity为余弦相似度函数，W为深度学习待求解参数矩阵，H_n×dim代表节点的特征向量矩阵，H_m×dim代表m个重要节点的特征向量矩阵，后转入步骤4.2。

步骤4.2：计算注意力系数矩阵A_n×n＝Sim_n×mL_m×n，Sim_n×m代表相似度矩阵，L_m×n为深度学习待求解参数矩阵，n为网络图G中节点个数，m为选取的重要节点个数，对注意力矩阵A_n×n中的每一个元素a_ij，按行归一化，归一化方式为：a_ij∈A_n×n，后转入步骤4.3。

步骤4.3：计算其中K代表隐藏层的堆叠层数，N_i代表节点i的邻居节点集，/>代表第k个隐藏层中节点i对节点j的注意力强度，W^k为第k个隐藏层的待学习参数矩阵，/>代表节点j的特征向量表示，得到用于链路预测的节点向量表示矩阵H'，后转入步骤5。

步骤5：由步骤4计算得来用于链路预测的节点向量表示矩阵H'，在其最后一个隐藏层之后，加入一个含有两个神经元节点的输出层，即一个逻辑回归分类器，用于输出连边存在的概率Y。步骤5.1、5.2和5.3的详细描述如下：

步骤5.1：由步骤2计算得来大气污染物PM2.5传播网络G＝(V,E)，将其连边集合E的所有元素作为正例样本加入样本空间，通过负采样技术随机选取与正例样本等量的不属于连边集合E的元素作为反例样本加入样本空间，并将样本空间进行乱序处理，对于任意节点i,j组成的连边e_ij对应的特征向量可表示为其中⊙代表向量的哈达玛积运算，后转入步骤5.2。

步骤5.2：在步骤4.3描述的隐藏层之后，加入一个含有两个神经元节点的输出层，用于输出连边存在的概率，激活函数采用Softmax，损失函数采用二元交叉熵损失函数，优化器选择Adam，激活函数选择参数为0.2的LeakyReLU，输入层神经元节点个数为128，邻居聚合层神经元节点为64，邻居聚合层堆叠32层，学习率为0.001，dropout参数为0.4，模型训练迭代周期epoch为100。后转入步骤5.3。

步骤5.2：通过步骤5.3训练完成后，任选两个空气质量监测站i,j所采集的PM2.5时序数据X_i和X_j作为模型输入，即可得到PM2.5在空气质量监测站i,j之间发生传播关系的概率Y_ij。

本发明相对于现有技术具有以下优势：

本发明专利提出一种基于链路预测的大气污染传播路径预测方法。该大气污染传播路径预测方法具有以下特点，第一点，该方法通过转移熵量化了污染物在不同监测站间的传播量，可以更好的做到污染物扩散传播的精准防控；第二点，该方法以网络科学的视角进行建模，侧重关注不同监测站间存在的污染物传播关系；第三点，该方法不依赖人工采集数据，在空气质量监测站普遍存在的现有条件下，可自动采集用于模型输入的数据。第四点，该方法不依赖于图像数据，对大气变化的感受更加灵敏且感知视野更加广阔；第五点，该方法不依赖特定城市的地理结构、建筑密度等参数，模型可以很方便地在其它城市迁移重建，具有更高的普适性；

附图说明

图1是本发明所用数据片段示例图

图2是本发明大气污染物在空气质量监测站点间传播关系构建流程图

图3是本发明基于兰州市空气质量监测站数据构建的任意两站点4组转移熵与标准差的二维空间表示图

图4是本发明基于链路预测的大气污染传播路径预测模型流程图

图5是本发明与现有链路预测方法训练过程的AUC指标(单位：％)对比图

图6是本发明与现有链路预测方法重复10次随机实验AUC值与平均相对误差(单位：％)对比图

图7是本发明本发明与现有链路预测方法Precision指标在不同L取值下的对比图

具体实施方式

下面结合附图对本发明进一步说明。

本发明所依赖的原始数据，选自兰州市在其市内密布的111个空气质量监测站所采集的数据，其中一个监测站的数据片段如图1所示。每个采集时间对应一个PM2.5浓度值，采集时间间隔为1小时。对于因机械故障未采集到的缺失值，以其前后一小时PM2.5浓度值的均值代替。

本发明转移熵计算过程如图2所示，其中S₁,S₂,…,S_n代表n个空气质量监测微站点，t₁,t₂,…,t_m代表m个采集时间，原始数据矩阵中的每个元素代表一个PM2.5浓度值。在时间窗口分别为k＝l＝1,2,3,4的4种条件下，任意两个监测站可计算出4个转移熵为1组。该操作即通过步骤1得到(111×(111-1))组转移熵。

本发明网络构建过程如图2所示，在得到(111×(111-1))组转移熵后，每组转移熵可计算出1个标准差和1个平均值，以平均值为横轴，标准差为纵轴，建立平面直角坐标系xoy，其中xoy中的每个点关联2个监测站。对所有组的转移熵标准差求平均值STDEV，所有组的转移熵平均值再求平均值AVG，可在xOy中，作平行于x轴的平行线y＝STDEV，作平行于y轴的平行线x＝AVG，将xOy划分为4个区域，其中右下角区域的点代表，构成该点的两个监测站的转移熵，在整个样本空间中平均值偏大，标准差偏小，即转移熵均值越大，污染物传播量越大，转移熵标准差越小，污染物传播关系越稳定。选取该右下角区域的点，以监测站为节点，在其对应的监测站间构建连边，即可得到大气污染物PM2.5传播网络。基于兰州市111个监测站数据，构建的转移熵均值与标准差的二维空间表示如图3所示。该操作通过步骤2得到大气污染物PM2.5传播网络G＝(V,E)，之后转入步骤3得到代表节点局部拓扑结构的向量矩阵H。

本发明基于链路预测的大气污染传播路径预测模型流程图如图4所示，通过步骤3得到节点特征向量矩阵H后，选取度最大的m个节点的向量表示，结合深度学习待求解参数W和L得到注意力系数矩阵A，并根据节点邻居对注意力系数矩阵A进行Softmax归一化，最后通过H'＝σ(AWH)得到更新后的节点特征向量表示矩阵H'。该操作即通过步骤4对节点特征向量矩阵H进行优化调整得到H'。后转入步骤5，构建样本集和样本特征，将分类结构与步骤4的邻居聚合结构合并训练，即可得到任意两个节点间产生连边的概率，即任意两个监测站间存在大气污染物PM2.5传播关系的概率。

图5、6和7是本发明与其它同类模型在不同评价指标下的对比图。其中AUC值越接近1代表模型的预测性能越好，Precision值曲线下降速度越慢表明模型的性能越好。从图5中可以看出本模型(FALP)不仅拥有较高的预测性能，且收敛速度较快；从图6重复10次随机实验的AUC值与相对误差对比图可以看出，本模型的平均AUC值最高，且平均相对误差最低，说明本模型的不仅预测性能高，而且稳定性更优；从图7中可以看出，本模型的Precision值曲线下降速度最缓，说明本模型的容错率更高。

Claims

1.一种基于链路预测的大气污染传播路径预测方法，其特征在于：在构建大气污染传播路径预测模型时，用转移熵值量化不同监测站间的传播量；构建大气污染物传播网络；得到网络中节点的向量表示矩阵、注意力系数矩阵、节点向量表示矩阵；通过链路预测二分类方法，预测大气污染传播路径。通过以下步骤实现：

步骤一：根据不同监测站采集到的PM2.5时序数据向量，滑动时间窗口计算不同窗口条件下的转移熵值，用转移熵值量化PM2.5在不同监测站间的传播量；

步骤二：根据求出的不同时间窗口条件下的转移熵值，计算转移熵均值与标准差，以转移熵均值为横轴，转移熵标准差为纵轴，构建监测站间PM2.5传播关系的二维空间表示，确定整个样本空间中转移熵均值偏大、标准差均值偏小的样本点，选取此样本点涉及的监测站构建连边，构建大气污染物传播网络；

步骤三：在大气污染物传播网络中通过网络表征学习技术，给定一个初始节点进行随机游走，得到一个节点访问序列，最后通过向量化技术，得到网络中节点的向量表示矩阵；

步骤四：选取大气污染物传播网络中的重要节点，与其它所有节点计算相似度，结合深度学习待求解参数，得到注意力系数矩阵；

步骤五：根据网络的节点邻居对注意力系数进行归一化表示，并通过该注意力系数矩阵，结合图深度学习的网络节点邻居聚合结构，得到优化后的节点向量表示矩阵；

步骤六：将所有连边作为正例样本，通过负采样技术构建反例样本，得到样本空间；通过节点向量矩阵和哈达玛积，表示样本空间中的连边向量；在最后一个深度学习隐藏层后加入一个逻辑回归结构，将大气污染传播路径预测问题，转化为网络科学视角下的链路预测问题，并通过二分类求解该链路预测问题，有效提高大气污染传播路径预测模型性能。