CN114330120A

CN114330120A - 一种基于深度神经网络预测24小时pm2.5浓度的方法

Info

Publication number: CN114330120A
Application number: CN202111623874.9A
Authority: CN
Inventors: 李四维; 滕梦凡; 杨洁; 宋戈
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-12
Anticipated expiration: 2041-12-28
Also published as: CN114330120B

Abstract

本发明公开了一种基于深度神经网络预测24小时PM_2.5浓度的方法。针对目前对PM_2.5长期浓度预测误差较大的问题，本发明将CEEMD分解方法与AE‑BILSTM堆叠的深度神经网络模型进行组合，构建新型混合预测模型来实现PM_2.5浓度的短期精确预测和长期浓度趋势的模拟。目前深度神经网络模型已经被广泛应用，并表现出良好的性能；基于经验模态分解方法提取时间序列数据变化特征的优势也逐渐突显，两者的结合可以带来更好的预测结果。

Description

一种基于深度神经网络预测24小时PM2.5浓度的方法

技术领域

本发明涉及空气污染物预测技术领域，尤其涉及PM_2.5未来浓度的变化趋势预测。

背景技术

近年来，随着经济的迅速发展，城市化进程的加剧，汽车保有量不断增加，PM_2.5浓度也随之升高。PM_2.5会对人体的呼吸道***，心血管***产生较大危害，尤其是当其浓度超过115μg/m³的情况。另外，生态环境也会受到高浓度PM_2.5的损害，因此，建立一个可以有效预测PM_2.5浓度方法未来变化趋势的***和方法至关重要。

目前，可用于PM_2.5浓度预测的技术和方式大概可以归纳为两类：确定性技术和统计模型，确定性技术可以理解为采用模式进行预测，如常见的WRF，WRF-CMAQ模型，但由于确定性技术需要准确的地面排放网格数据和污染来源等信息，数据获取较为困难，数据不确定性较大，模拟结果精度较低，缺点较为明显。反观统计模型则可以较为容易的获取到可用数据，通过提取历史数据的变化特征来模拟未来的浓度变化情况，主要方法包括传统的线性方法和如今较为热门的机器学习模型等。常见的线性模型如灰色模型，最小二乘回归，自回归等；常见的机器学习模型包括反向传播神经网络，广义神经网络，梯度下降算法，决策树模型等。一般来说，在PM_2.5浓度预测中，机器学习方法的性能要优于线性方法，可以更好的捕捉影响因素与PM_2.5浓度之间的非线性关系。近来，深度神经网络被引入用来预测PM_2.5浓度，如循环神经网络，深度置信网络和长、短期记忆神经网络等，往往表现出比传统机器学习方法更好的性能。捕捉PM_2.5浓度的变化特征以及与其他因素之间的关系从而实现长期浓度的准确预测是目前预测方法的挑战。气象要素与PM_2.5浓度变化规律之间存在一定的相关性，其他污染物也会存在一定的影响。因此，构建复杂度更高，能够捕获更多信息的模型是准确预测PM_2.5浓度的前提。此外，PM_2.5浓度数据本身的变化规律更为重要，能够有效提取浓度时序数据中的不同变化特征信息，有助于预测模型更好的实现预测的功能。然而，现有的预测方法尚未将上述的信息很好的利用。

地面监测站点的PM_2.5浓度数据是一种时间序列数据，对其未来浓度预测的本质是对时间序列数据变化趋势的预测。单一模型在对PM_2.5时序浓度预测时往往存在一定的缺陷，无法充分的捕获到PM_2.5浓度变化的关键信息，这些因素的存在导致难以准确捕捉PM_2.5浓度变化的演变特征，增加了预测难度。与此同时，整个时间序列数据的演变特征也未被充分提取，无法捕获不同频次的变化特征，产生了较大的误差。

综上所述，现有的PM_2.5浓度预测技术很难预测PM_2.5浓度的长期(T+6时刻之后)变化特征，预测结果误差较大，峰值存在严重低估的情况。

发明内容

针对目前对PM_2.5长期浓度预测误差大的问题，本发明将CEEMD分解方法与AE-BILSTM堆叠的深度神经网络模型进行组合，构建混合预测模型来实现PM_2.5浓度的短期精确预测和长期浓度趋势的模拟。目前深度神经网络模型已经被广泛应用，并表现出良好的性能；基于经验模态分解方法提取时间序列数据变化特征的优势也逐渐突显，两者的结合可以带来更好的预测结果。与此同时，国家建立污染物地面监测站点已有较长时间(2013-至今)，有大量的历史数据可以用于对深度学习模型的训练，这是检验本发明预测性能的关键。

一种基于深度神经网络预测24小时PM_2.5浓度的方法，包括如下步骤：

步骤1)，收集某一时间段某一地区多个地面监测站点的PM_2.5浓度时序数据，对应时间段内的其他6种污染物数据和NOAA地面站点的4种气象要素数据，并对所有数据进行异常值剔除和缺失值补全操作；

6种污染物数据包括PM₁₀，PM_2.5，SO₂，NO₂，CO和O₃，4种气象要素数据包括温度T，露点温度DT，风向U和风速V；

步骤2)，把完整的PM_2.5时间序列数据划分为训练集和测试集，然后利用CEEMD分解方法分别分解两个数据集，分别为训练分量集和测试分量集，并分别计算训练分量集和测试分量集中各分量的样本熵，均值和方差；

步骤3)，构建AE-BILSTM模型，所述AE-BILSTM模型包括一个编码器，用于提取输入参数中的隐式特征，一个解码器，用于解码和还原输入参数，然后堆叠一个BILSTM层用于提取正向和反向的输入与输出参数间的过去与未来的变化特征；最后把BILSTM层的输出放入全连接层中，得到最后的预测结果；

步骤4)，选择一个与测试分量最接近的训练分量，和其他污染物与气象要素数据一起作为AE-BILSTM模型的输入参数，训练AE-BILSTM模型，每一个测试分量对应一个最接近的训练分量，并训练得到对应的AE-BILSTM模型；

步骤5)，将测试分量输入到对应的训练好的AE-BILSTM模型，将AE-BILSTM模型预测未来时刻的所有测试分量按照相同时刻求和的规则进行累加，以获得最终的PM_2.5浓度预测结果。

进一步的，步骤1)中根据缺失值占比大小进行补充操作，缺失值占比为0％～3％时，使用均值填充进行数据补全，缺失值占比为3.01％～10％时，使用线性插值进行数据补全，缺失值占比为10.01％～20％时，使用邻近点线性趋势进行数据补全。

进一步的，步骤2)中，所述CEEMD分解方法是基于经验模态分解EMD改进而来的进化版分解方法，将非平稳时序数据分解成多个平稳的时序信号，提升时序信号的自相关，提取更多有效信息；CEEMD分解方法中设置三种参数，分别是信号标准偏差(Nstd)，添加的白噪声数量(NR)以及最大包络次数(MaxIter)，训练集中Nstd、NR、MaxIter的具体数值设置为0.2，400和4000；测试集中Nstd、NR、MaxIter分别设置为0.2，100和1000，分别得到16个训练分量和13个测试分量，并分别计算两个数据集分解得到分量的样本熵，均值和方差。

进一步的，步骤4)中与测试分量最接近的训练分量是指，与测试分量的样本熵，均值和方差最为接近的训练分量。

进一步的，步骤4)中，训练AE-BILSTM模型时，使用的损失函数为“Mse”，具体公式如(1)所示，并使用深度学习常用的防止过拟合的早停方法，防止模型出现过拟合；

其中，T为时间步长，N为数据的时刻总数，

为预测值，x为真实值，i表示某个时刻，t为时间步长中的某个具体值。

进一步的，还包括计算预测结果与实测数据之间的三种精度评价指标，即拟合优度(R²)，均方根误差(RMSE)，平均绝对误差(MAE)，评价模型的预测性能。

与现有技术相比，本发明的优点和有益效果如下：

本发明基于深度神经网络算法的双向长、短期记忆神经网络作为主要的时序预测模型，并堆叠能够抑制噪声干扰的自动编码器(AE)，提取隐式特征，提升模型性能。

本发明提出了一种新型的混合模型，该混合模型能够充分提取了PM_2.5时序浓度的不同变化特征，抑制噪声干扰，实现高精度的短期预测和长期浓度的准确模拟。此外，CEEMD分解方法能够有效的克服模态混叠的问题，更好的提取时序数据中的不同变化趋势，为时序预测模型提供更准确的特征信息，在预测PM_2.5浓度上有较大的价值。

本发明将AE层与BILSTM堆叠泛化，并采用CEEMD分解方法组成新型的混合预测模型，独立分解训练集和测试集，采用样本熵等方式筛选每个测试集分量的适合训练分量，耦合分解方法与时序预测模型，实现对地面站点PM_2.5浓度的短期浓度的精确预测和长期浓度的准确模拟。

附图说明

图1CEEMD方法分解PM_2.5时序浓度示意图；

图2为本发明流程图

图3为本发明实施示例预测示意图；

图4为本发明实施示例混合模型1002A站点的四个时刻预测结果；

图5为本发明实施示例混合模型对站点均值的四个时刻预测结果。

具体实施方式

下面结合附图和实施示例对本发明的技术方案作进一步说明。

为了实现对PM_2.5浓度短期和长期的浓度预测，本发明的具体实施步骤主要包括三部分：A)数据预处理以及分解，B)混合模型的构建过程，C)实现浓度的预测。数据预处理以及分解内容包括数据处理和缺失值填充，划分训练集和测试集；CEEMD分解方法的参数设置，AE层与BILSTM模型的相互堆叠；混合模型的构建过程包括引入样本熵(SE)指标来耦合两种方法，测试集的白噪声检测，AE-BILSTM模型的时间步长设置，过拟合防止等步骤；实现对短期(T+1)浓度的精确预测和长期(T+6,T+12,T+24时刻)的预测包括把每个测试集的预测结果进行累加，得到最终的预测结果并与真实值进行精度评价等内容。

A)数据预处理以及分解

1、本发明收集了2018-2020年期间，北京市12个地面监测站点的PM_2.5浓度的小时数据，并按照时间的先后顺序排列。由于地面站点的物理传感器无法避免的会出现错误的传输，停止工作等原因，造成数据的缺失和异常，所以需要对其进行异常值剔除和缺失值补全的操作。

2、其他污染物会对PM_2.5浓度变化造成很大的影响，比如PM₁₀，NO₂等，所以也需要收集对应时间该站点的其他污染物浓度的小时数据，包括五种，如PM₁₀，CO，NO₂，O₃，SO₂等，同样数据中会出现异常值和缺失值，需要进行剔除和补全。由于每种污染物的缺失值的比例不同，用一种方法补全不合适，本发明将缺失占比在3％以内的数据采用均值填充的方法补全，3％～10％的数据用线性插值的方法补全，超过10％的数据用临近线性趋势的方法补全。合理的数据补全能够更加真实的反应预测模型的预测性能。

3、准备与研究区内污染物监测站点最近的气象站点的数据，气象数据能够很大程度的影响PM_2.5浓度的变化规律，是预测模型的重要输入参数。本研究选择了美国国家海洋和大气局(NOAA)的地面站点的气象数据，包括温度(记作T)，露点温度(记作DT)，风向(记作U)，风速(记作V)，气象数据的时间分辨率为每小时，与PM_2.5浓度数据的时间分辨率相吻合。

4、CEEMD方法可以将时间序列的数据按照其不同的变化趋势分解成很多个变化特征不同的分量，提取时间序列中的有效信息，并且能够保持数据的时间长度不变。为了保证测试数据的独立性，本发明首先把完整的PM_2.5时间序列数据划分为训练集(时间序列的前80％)和测试集(最后的20％)，然后用CEEMD分解方法分别分解两个数据集。CEEMD分解方法需要设置信号标准偏差(Nstd)，添加的白噪声数量(NR)以及最大包络次数(MaxIter)等三个参数，参数的设置会对整体的预测结果有很大的影响。通过多次实验验证，最后将Nstd设置为0.2，NR和MaxTter分别设置为时间序列数据总量的1/50和1/5。

5、AE层具有很好的噪声抑制功能，CEEMD分解方法得到的前两个分量包含一些噪声，可以使用该方法抑制噪声的干扰，提高预测的准确性。BILSTM是在普通的LSTM模型上加上了一个用于提取未来到过去的时序特征LSTM层，帮助正向传播的LSTM模型进行误差校正，用更多的特征信息预测PM_2.5浓度的变化趋势。两种模型的堆叠能够很好的聚合二者的优势，提供更加准确的预测结果。

B)混合模型的构建过程

1、混合模型用到的两种方法分别用于分解PM_2.5时间序列数据和对未来浓度进行预测。二者在整个预测过程中的作用不同，如何将两种方法有效的耦合，充分发挥其各自的优势，是这项发明关键。由于训练集和测试集的变化特征，序列长度等都存在区别，CEEMD方法分解得到的分量个数也不相同，那么如何训练AE-BILSTM模型，用于预测对应的测试分量？本发明引入样本熵指标，一种可用于衡量时间序列变化复杂度的指标，筛选每个测试分量所对应的训练分量。引入样本熵耦合两种方法，让其充分发挥各自的优势，得到更加准确的预测结果。

2、测试集的预测准确性不仅与时序预测模型有关，还与序列本身有关，序列本身如果自相关性很弱，无法从过去推导到未来的情况，那么就算是性能很好的模型也会出现较大的误差。可以通过时间序列在不同时刻的自相关来检测其是否是类似白噪声的序列，自相关系数的大小会直接影响时序预测模型的预测结果准确性。

3、AE-BILSTM模型的时间步长(也叫做时滞，用多个过去时刻预测未来某一时刻)也会对预测结果产生很大的影响，具体来说就是可以输入多个过去时刻的数据，更好的提取长短期特征来准确预测未来，但是并不是输入时间越长越好，需要合理设置，可以通过PM_2.5浓度序列的偏自相关性设置。当需要预测T+12，T+24时刻的浓度时，为了突显BILSTM模型在时序特征提取上的优势，用更多的过去时间来预测未来，经过多次尝试，决定把时间步长设置为与预测时间相同的值。

4、在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上误差逐渐减少，预测准确率逐渐升高；但是在测试数据上误差逐渐变大，预测准确率较低。深度神经网络中有多个防止过拟合的方式，如L1,L2正则化，Dropout等，本研究使用的是Early_stopping方法防止AE-BILSTM模型在训练过程中出现过拟合的现象，影响预测模型结果的客观性。

C)实现浓度的预测

1、分别使用混合预测模型预测T+1，T+6，T+12，T+24等4个时刻的PM_2.5浓度。预测T+1时刻的浓度就是使用上一个时刻的值AE-BILSTM模型预测出每个分量在未来时刻的变化规律，得到最终的PM_2.5预测结果需要把所有预测的分量在对应的时刻进行累加，得到最终的结果，并与真实的数据进行精度评价。

2、模型预测结果的精度评价采用拟合优度(R²)，均方根误差(RMSE)，平均绝对误差(MAE)等三个指标。拟合优度是指预测值对真实值的拟合程度，度量拟合优度的统计量为可决系数R²。均方根误差是是预测值与真实值偏差的平方与观测次数n比值的平方根，对二者中的特大或特小误差反映非常敏感，能够很好的反应出预测结果的精确性。平均绝对值误差表示预测值和观测值之间绝对误差的平均值,平均绝对误差可以避免误差相互抵消的问题，因而可以准确反映实际预测误差。多种不同的衡量标准可以更加全面的表示模型预测结果的准确性，具体预测流程如图2所示。

具体实施例如下：

1、实施目标

以实现地面检测站点PM_2.5浓度的短、长期浓度预测为例，目前较多的方法很难做到短期的精确预测和长期的准确模拟，因此本发明提出了一个混合预测模型，用于对PM_2.5未来浓度进行更好的预测，以北京市地面监测站点的PM_2.5浓度数据为例。

2、数据选择

污染物地面检测站点提供逐时的六种空气污染物的浓度，NOAA气象站点能够提供地面逐小时的4种气象参数。污染物数据包括6种主要污染物，分别是PM₁₀，PM_2.5，SO₂，NO₂，CO，O₃，气象参数包括4种对PM_2.5浓度影响较大的种类，分别是温度T，露点温度DT，风向U，风速V。根据缺失占比大小分别使用均值填充(0％～3％)，线性插值(3.01％～10％)和邻近点线性趋势(10.01％～20％)三种方法对数据进行补全(输入参数的数据缺失占比均小于20％)，得到完整的时间序列。

3、实施过程

A、CEEMD分解与AE-BILSTM模型的堆叠过程

1)收集2018-2020年期间北京地区12个地面监测站点的PM_2.5浓度时序数据，对应时间段内的其他6种污染物数据和NOAA地面站点的气象要素数据(4种)。

2)划分训练集和测试集，占比为PM_2.5时序数据的前80％(训练集)和后20％(测试集)(按照时间的先后顺序排列)，然后采用CEEMD分解方法对两个数据集分别进行分解。CEEMD分解方法是基于EMD(经验模态分解)改进而来的进化版分解方法，可以将非平稳时序数据分解成多个平稳的时序信号，提升时序信号的自相关，提取更多有效信息。CEEMD分解方法的需要设置三种参数，分别是信号标准偏差(Nstd)，添加的白噪声数量(NR)以及最大包络次数(MaxIter)，具体数值设置为0.2，400(占比约为总数据的1/50)和4000(占比约为总体数据的1/5)；测试集分解的三种参数分别设置为0.2，100(占比约为总数据的1/50)和1000(占比约为总体数据的1/5)，分别得到16个训练分量和13个测试分量，具体结果如图1所示。最后，分别计算两个数据集分量各自的样本熵，均值和方差。

3)AE-BILSTM模型的搭建流程为先放置一个编码器用于接收输入参数，提取输入参数中的隐式特征，接着再放置一个解码器，解码和还原输入参数，然后堆叠一个BILSTM层用于提取正向和反向的输入与输出参数间的过去与未来的变化特征；最后把BILSTM层的输出放入全连接层中，得到最后的预测结果。

B、两种方法的耦合过程

1)测试集的分量和训练集的分量数量不同，通过遍历训练集中每个分量的样本熵(主要约束条件)，均值和方差的大小，选择一个最为相似的训练分量(与测试分量的样本熵，均值和方差最为接近)来训练AE-BILSTM模型，用于预测对应的测试分量。

2)通过AE-BILSTM模型的训练损失和验证损失之间的误差大小(模型训练过程中的预测结果与真实值的误差，误差越小越好)来设置模型的超参数(迭代次数，学习率，神经元个数等)，以期达到最好的预测效果。在本发明中使用的损失函数为“Mse”，具体公式如(1)所示，并使用深度学习常用的防止过拟合的早停方法，防止模型出现过拟合(当验证损失不再降低的时候停止训练模型)，影响模型性能的客观性。

其中，T为时间步长，N为数据的时刻总数，

3)把CEEMD分解后的分量(样本熵等指标筛选后)与其他污染物和气象要素数据作为AE-BILSTM模型的输入参数，训练模型。现有13个测试集分量，需要训练13个AE-BILSTM模型分别预测每个测试集分量在未来时刻的变化趋势。

C、对短期(T+1)和长期浓度进行预测(T+6,T+12以及T+24)

1)AE-BILSTM模型可以实现多步预测，T+1时刻就是对未来1小时的浓度进行预测，T+6时刻就是用T和T时刻之前(等于时间步长)的数据预测未来6小时的浓度，以此类推，T+12时刻和T+24时刻使用T和T时刻之前的数据来预测未来12和24小时的PM_2.5浓度，具体流程如图3所示。

2)将AE-BILSTM模型预测未来时刻的所有测试集分量按照相同时刻求和的规则进行累加，具体来说，现需要预测T+1时刻(未来1小时)的PM_2.5浓度，则需要预测测试集分解得到的13个测试分量在T+1时刻的变化趋势，得到13个分量的预测结果后，将每个分量的对应时刻相加，以获得最终的PM_2.5浓度预测结果。随后，计算预测结果与实测数据之间的三种精度评价指标，即拟合优度(R²)，均方根误差(RMSE)，平均绝对误差(MAE)，用于评价模型的预测性能。

4、结果评价

为验证本发明的可行性、鲁棒性，首先使用单一站点(站点名称：定陵，国控站点编号：1002A)的数据对该混合预测模型的预测性能进行测试。并绘制了4个时刻的预测结果线性回归散点热图，三个精度评价指标的定量值能够较为清晰的展示出该模型在不同时刻的预测性能，如图4所示。混合模型的预测精度随着预测时长的增加逐渐削弱，T+1时刻的拟合优度R²达到了0.991，几乎完全预测到了每个时间点的变化情况，T+6和T+12时刻的预测结果也有着很高的准确性，RMSE分别为7.2μg/m³和9.61μg/m³，混合模型的稳定性很好。T+24时刻的结果也能一定程度上很好的拟合真实值的变化规律，说明该混合模型能够达到我们预期的目标，对短期(T+1)进行精确预测，对长期浓度变化趋势进行准确的模拟。

一个站点的PM_2.5浓度时序数据验证模型的预测性能可能存在一定的偶然性，为了确定混合模型的预测性能的一般性，现采用北京地区12个地面站点对应时刻的均值来做验证，并且一个城市的空气质量预报往往是所有站点浓度的平均值，所以以此来验证模型和思路对模型的预测性能更具有说服力。数据的分解，模型的耦合过程与上述单一站点相同，同样使用AE-BILSTM预测T+1，T+6，T+12，T+24等4个时刻的浓度情况，如图5所示。与单一的站点相对，混合模型对均值的预测性能也随着预测时长的增加而降低，在T+1时刻的R²高达0.995，比单一的1002A站点还要优越。T+6时刻的R²也达到了0.95，可以很准确的模拟整个变化情况，比单一站点要更好。然而，T+12与T+24时刻的结果没有单一站点要好，可能是因为均值包含了所有站点的PM_2.5浓度变化特征，在长期预测中要比单一站点难度更大，但依旧能够达到精确预测短期浓度，准确模拟长期浓度的目标。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于：步骤1)中根据缺失值占比大小进行补充操作，缺失值占比为0％～3％时，使用均值填充进行数据补全，缺失值占比为3.01％～10％时，使用线性插值进行数据补全，缺失值占比为10.01％～20％时，使用邻近点线性趋势进行数据补全。

3.如权利要求1所述的一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于：步骤2)中，所述CEEMD分解方法是基于经验模态分解EMD改进而来的进化版分解方法，将非平稳时序数据分解成多个平稳的时序信号，提升时序信号的自相关，提取更多有效信息；CEEMD分解方法中设置三种参数，分别是信号标准偏差(Nstd)，添加的白噪声数量(NR)以及最大包络次数(MaxIter)，训练集中Nstd、NR、MaxIter三个具体参数数值分别设置为0.2，400 和4000；测试集中的Nstd、NR、MaxIter分别设置为0.2，100和1000，分别得到16个训练分量和13个测试分量，并分别计算两个数据集分解得到分量的样本熵，均值和方差。

4.如权利要求1所述的一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于：步骤4)中与测试分量最接近的训练分量是指，与测试分量的样本熵，均值和方差最为接近的训练分量。

5.如权利要求1所述的一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于：步骤4)中，训练AE-BILSTM模型时，使用的损失函数为“Mse”，具体公式如(1)所示，并使用深度学习常用的防止过拟合的早停方法，防止模型出现过拟合；

其中，T为时间步长，N为数据的时刻总数，

6.如权利要求1所述的一种基于深度神经网络预测24小时PM_2.5浓度的方法，其特征在于：还包括计算预测结果与实测数据之间的三种精度评价指标，即拟合优度(R²)，均方根误差(RMSE)，平均绝对误差(MAE)，评价模型的预测性能。