CN111369057A

CN111369057A - 一种基于深度学习的空气质量预测优化方法及***

Info

Publication number: CN111369057A
Application number: CN202010146595.7A
Authority: CN
Inventors: 骆春波; 费皓麟; 吴骁峰; 罗杨; 彭振东; 刘子健
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-03

Abstract

本发明提供了一种基于深度学习的空气质量预测优化方法及***，本发明在利用足够的历史数据的情况下纠正空气质量模型CMAQ的预测变量和实际分布的偏差，根据传统模型对大气污染物的预测以及大气数据检测站数据，制作待提升数据集，利用长短时记忆网络将传统模型与深度学习算法相结合，完成对空气质量预测的优化。本发明利用级联长短时记忆C‑LSTM网络能更善于挖掘长期的序列特征避免了梯度***的优点，利用XGBoost网络去优化选择时间以及其他辅助因素以去除不重要或干扰特征，通过训练模型，充分提取传统模型预测以及气候等特征，解决了传统模型***性误差的问题。

Description

一种基于深度学习的空气质量预测优化方法及***

技术领域

本发明属于空气质量指数预测技术领域，尤其涉及一种基于深度学习的空气质量预测优化方法及***。

背景技术

近年来，环境问题成为了人们关注的热点。空气中不同的污染物能引起的各种人类慢性疾病，包括SO2(二氧化硫)，NO2(二氧化氮)，NO(一氧化氮)，PM2.5以及PM10等。多项研究表明，暴露于高度污染的环境将导致人类的心血管疾病和呼吸***疾病。随着工业的快速发展和人口的增加，空气污染在中国西部地区已成为严重的问题。因此，在城市地区需要建立一个精准的污染物预测及报警***，对人们的生活安排具有重要的作用。然而，由于复杂的空间分布，现有的空气污染预测***很难实现精确的长时间序列污染物预测。另一方面，实时的空气污染检测的影响因素种类较多，例如当地的气候状况和地形特征。在过去的二十年中，由美国EPA提出的社区多尺度空气质量模型(CMAQ)能够根据污染物排放及气象数据对空气中扩散的污染物进行不同时间间隔的预测。同时，天气研究和预报模型(WRF)能够作为CMAQ的辅助***将化学因素输入整体模型。但是，CMAQ模型在考虑时间尺度和空间分布的的综合影响时将在预测***的引入偏置。此外，CMAQ模型受其网格预测的限制，该***无法以较高的空间分辨率预测空气状况。为了提高CMAQ***的预测准确率，一种旨在结合大气扩散建信息的***(ADMS)通过探索颗粒物的化学扩散信息，能够对CMAQ的预测结果进行修正。然而，ADMS***对无法建立长时间的化学扩散评估，因此无法进行CMAQ长时间序列的预测修正。除了CMAQ模型外，地理信息***(GIS)和嵌套空气质量预测建模***(NAQPMS)也是预测空气污染物的常用模型，但是它们是由于模型容量相对有限，因此无法处理大范围的输入变量。通过上述先前的工作，我们发现建立一个长时序的CMAQ的误差纠正模型对于该模型的准确率提升是很有帮助的。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度学习的空气质量预测优化方法及***以在利用历史数据的情况下纠正CMAQ预测变量和实际分布的偏差。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于深度学习的空气质量预测优化方法，包括以下步骤：

S1、获取大气数据检测站点的观测值，以及空气质量模型CMAQ的预测值；

S2、根据所述观测值和预测值得到训练集和测试集，并利用最小最大规格化对所述训练集和测试集进行缩放；

S3、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取，并根据提取后的特征值利用级联C-LSTM网络进行不同时间尺度下的空气质量预测，得到调整后的预测值；

S4、将相关气象数据作为第二XGBoost网络的输入，并根据经第二XGBoost网络筛选后输出的气象数据以及调整后的预测值，利用深度神经网络进行训练，得到误差值；

S5、将所述调整后的预测值以及误差值进行求和计算，并根据计算结果完成基于深度学习的空气质量预测的优化。

进一步地，所述步骤S1具体为：

获取大气数据检测站点过去48小时至24小时的观测值，以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值。

再进一步地，所述步骤S2包括如下步骤：

S201、将获取的观测值和预测值利用时间序列转换为输入和输出的顺序对；

S202、将所述输入和输出的顺序对划分为比例为4比1的训练集和测试集；

S203、利用最小最大规格化算法将所述训练集和测试集缩放为0-1之间的映射值。

再进一步地，所述步骤S204中利用最小最大规格化对所述训练集和测试集进行缩放的表达式如下：

其中，max表示数据的最大值，min表示数据的最小值，x表示转换前的数组，x^*表示缩放后的数组。

再进一步地，所述步骤S3包括如下步骤：

S301、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取，并将阈值低于10的特征值从训练集和测试集中去除；

S302、利用级联C-LSTM网络对清理后的训练集和测试集进行训练，得到调整后的预测值。

再进一步地，所述步骤S4中的相关气象数据包括温度、温度、风速和气压变量。

基于上述方法，本发明还公开了一种基于深度学习的空气质量预测***，包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型；

所述输入端、第一XGBoost网络和级联C-LSTM网络依次连接，所述深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接；

进一步地，所述输入端，用于接收获取的大气数据检测站点过去48小时至24小时的观测值，以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值；

所述第一XGBoost网络，用于对获取的观测值以及预测值进行特征提取；

所述级联C-LSTM网络，用于对经特征提取后的数据进行不同时间尺度下的空气质量预测，得到调整后的预测值；

所述第二XGBoost网络，用于筛选输入的相关气象数据，以去除干扰特征，并将筛选后的相关气象数据输入至深度神经网络中；

所述深度神经网络，用于对经第二XGBoost网络筛选后输出的相关气象数据以及调整后的预测值进行训练，以减少误差。

再进一步地，所述级联C-LSTM网络包括依次连接的两层LSTM网络；

所述第一层LSTM网络，用于对XGBoost网络提取的特征值进行不同时间尺度下的空气质量预测，并将预测结果传输至第二层LSTM网络；

所述第二层LSTM网络，用于结合第一层LSTM网络的预测结果得到调整后的预测值。

再进一步地，所述深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层；

所述第一全连接层中神经元的个数为16个；

所述第二全连接层中神经元的个数为32个；

所述第三全连接层中神经元的个数为64个；

所述第四全连接层中神经元的个数为32个；

所述第五全连接层中神经元的个数为16个。

本发明的有益效果：

(1)本发明提供了一种基于深度学习的空气质量预测优化方法及***，本发明构建了一个物理学时序综合PTC模型，以在利用足够的历史数据的情况下能有效地纠正空气质量模型CMAQ的预测变量和实际分布的偏差；

(2)本发明中利用级联C-LSTM网络更能挖掘长期的序列特征，其具有避免了梯度***的优点；

(3)本发明利用XGBoost网络优化选择时间以及其他辅助因素，以去除不重要或干扰特征；

(4)本发明利用深度神经学习网络对调整后的预测值以及相关气象数据的训练，能充分提取传统模型预测以及气候等特征，解决了传统模型***性误差的问题；

(5)本发明能有效利用传统模型以及天气数据，能获得相比传统模型更准确的预测效果，还能发掘传统模型***误差缺少的重要信息；

(6)本发明能够很好地处理传统方法中需要人为干预调整数据等问题，自动化处理水平较高，可以极大地降低操作人员工作量。

附图说明

图1为本发明的方法流程图。

图2为本发明的***结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

本发明基本思想是根据传统模型对大气污染物的预测以及大气数据检测站数据制作待提升数据集，利用级联C-LSTM长短时记忆网络将传统模型与深度学习算法相结合，利用级联C-LSTM长短时记忆网络能更善于挖掘长期的序列特征避免了梯度***的优点，利用XGBoost网络去优化选择时间以及其他辅助因素以去除不重要或干扰特征，通过训练模型充分提取传统模型预测以及气候等特征，解决了传统模型***性误差的问题。

针对实际中大气污染物预测问题中，潜在的时间及辅助因素太多，前后实际观测值存在时序相关性的特点，构造出输入短时记忆网络参与训练的时序性样本特征集以及输入深层神经网络的气候等特征集，最后引入XGBoost网络提升模型输入量的相关性，根据特征重要性排除低重要性特征以降低维度，通过将XGBoost训练后的重要特征引入长短时记忆网络以及深层神经网络实现对未来长短时预测。如图1所示，本发明提供了一种基于深度学习的空气质量预测优化方法，其实现方法如下：

S1、获取大气数据检测站点过去48小时至24小时的观测值，以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值；

S2、根据观测值和预测值得到训练集和测试集，并利用最小最大规格化对所述训练集和测试集进行缩放，其实现方法如下：

S202、将输入和输出的顺序对划分为比例为4比1的训练集和测试集；

S203、利用最小最大规格化算法将训练集和测试集缩放为0-1之间的映射值，完成对训练集以及测试集的缩放处理。

本实施例中，将给定大气数据检测站过去48小时至24小时观测值，过去72小时，48小时，24小时空气质量模型CMAQ的预测值，重新组合成短时记忆网络LSTM所需输入样本结构，将当前观测值作为目标输出，将其从时间序列转换为可训练的输入和输出顺序对，并对最终输入输出对进行划分，训练集测试集比例4比1，然后使用最小-最大规格化(min-maxscaler)将数据缩放为0到1之间的映射值：

本发明的物理学时序综合PTC模型第二部分中使用的数据使用相同的过程来消除尺寸的影响。将最大最小温度，最大最小风力，最大最小湿度，气压，最大最小降雨量，是否为节假日(0和1表示)组合为将来XGBoost特征提取。

S3、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取，并根据提取后的特征值利用级联C-LSTM网络进行不同时间尺度下的空气质量预测，得到调整后的预测值，其实现方法如下：

S301、利用第一XGBoost网络对经缩放处理后的训练集和测试集进行特征提取，并将阈值低于10的特征值从训练集和测试集中去除；

S302、利用级联C-LSTM对清理后的训练集和测试集进行训练，得到调整后的预测值。

本实施例中，利用第一XGBoost网络对数据特征值提取的特点，先对整理好的第一组数据进行特征重要性提取，然后将重要性阈值低于10的特征值从同时从训练测试数据中去除，将清理后的训练集数据作为长短时记忆网络的输入。利用该长短时记忆网络对此输入数据进行训练，可以实现对过去空气质量时间的变化特征进行提取，实现初步的数据修正。长短时神经网络能有效避免梯度***从而对长时间重要关键信息的记忆，使机器获得重要过去气候变化特征。

本实施例中，对输入数据进行训练的表达式如下：

其中，ε_base表示空气质量模型CMAQ24小时的空气质量准确度，L表示总预测值个数，Y_CMAQ24h表示24小时前空气质量模型CMAQ的预测值，Y_true表示实际准确观测值，ε_model表示误差值，Y_model表示调整后的预测值。

S4、将相关气象数据作为第二XGBoost网络的输入，并根据经第二XGBoost网络筛选后输出的气象数据以及调整后的预测值，利用深度神经网络进行训练，得到误差值。

本实施例中，计算该调整后的预测值与当前真实值之间的误差值，作为下一层深度神经网络的目标输出，以实现使用深度神经技术将气象数据作为深度神经网络的输入，并使用这些数据进一步近似真实分布。借助此气象特征提取模型，CMAQ模型或C-LSTM忽略的一些重要特征可能具有更大的权重，因此会影响预测值，输入变量包括温度，湿度，风速和气压，与通过神经网络计算权重度量，并确定这些权重的相互影响，是深度神经网络对传统模型以及时序模型忽略的误差的补充调整。相似于步骤S3，该深度神经网络在输入前也需要先使用XGBoost网络提取关键特征，然后将提取后的特征作为深层神经网络的输入。深层神经网络训练后的输出再加上上一级C-LSTM输出共同构成最终预测结果。

S5、将调整后的预测值以及误差值进行相加计算，并根据计算结果完成基于深度学习的空气质量预测的优化。

本实施例中，将测试样本集中的数据进行相同数据处理操作后，并通过训练后的C-LSTM模型后，然后将深度神经网络的输入数据输入训练后的网络，最后将第一级与第二级的结果求和得到最终输出。我们通过测量CMAQ 24小时预测ε_base与实际观测值之间的欧几里得距离以及我们的偏差校正模型预测ε_model和实际观测值来验证模型，经此模型修正后的传统模型较修正前有较大的结果改进。

本实施例中，预测过程包括4个部分：(1)将不同时间间隔下空气质量模型CMAQ的预测值作为模型训练的先验预测变量；(2)利用XGBoost网络筛选重要特征并消除负面输入变量带来的影响；(3)级联LSTM利用空气质量模型CMAQ预测值和先前的空气监测指标来进行不同时间尺度下的空气质量预测；(4)通过涉及辅助信息(气候数据，季节，人为因素等)的深度神经网络(DNN)进一步校正级联LSTM的输出结果。

如图2所示，基于上述方法，本发明还公开了一种基于深度学习的空气质量预测***，包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型；输入端、第一XGBoost网络和级联C-LSTM网络依次连接，深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接。

本实施例中，输入端，用于接收获取的大气数据检测站点过去48小时至24小时的观测值，以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值。

本实施例中，第一XGBoost网络，用于对获取的观测值以及预测值进行特征提取。

本实施例中，级联C-LSTM网络，用于对经特征提取后的数据进行不同时间尺度下的空气质量预测，得到调整后的预测值。

本实施例中，第二XGBoost网络，用于筛选输入的相关气象数据，以去除干扰特征，并将筛选后的相关气象数据输入至深度神经网络中。

本实施例中，深度神经网络，用于对经第二XGBoost网络筛选后输出的相关气象数据以及调整后的预测值进行训练，以减少误差。

本实施例中，级联C-LSTM网络包括依次连接的两层LSTM网络；第一层LSTM网络，用于对XGBoost网络提取的特征值进行不同时间尺度下的空气质量预测，并将预测结果传输至第二层LSTM网络；第二层LSTM网络，用于结合第一层LSTM网络的预测结果得到调整后的预测值。

本实施例中，深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层；第一全连接层中神经元的个数为16个；第二全连接层中神经元的个数为32个；第三全连接层中神经元的个数为64个；第四全连接层中神经元的个数为32个；第五全连接层中神经元的个数为16个。

本发明能有效利用传统模型以及天气数据，能获得相比传统模型更准确的预测效果，还能发掘传统模型***误差缺少的重要信息，以在利用历史数据的情况下纠正CMAQ预测变量和实际分布的偏差；本发明能够很好地处理传统方法中需要人为干预调整数据等问题；本发明的自动化处理水平较高，可以极大地降低操作人员工作量。

Claims

1.一种基于深度学习的空气质量预测优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的空气质量预测优化方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的基于深度学习的空气质量预测优化方法，其特征在于，所述步骤S2包括如下步骤：

4.根据权利要求3所述的基于深度学习的空气质量预测优化方法，其特征在于，所述步骤S204中利用最小最大规格化对所述训练集和测试集进行缩放的表达式如下：

5.根据权利要求1所述的基于深度学习的空气质量预测优化方法，其特征在于，所述步骤S3包括如下步骤：

6.根据权利要求1所述的基于深度学习的空气质量预测优化方法，其特征在于，所述步骤S4中的相关气象数据包括温度、温度、风速和气压变量。

7.一种基于深度学习的空气质量预测***，其特征在于，包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型；

所述输入端、第一XGBoost网络和级联C-LSTM网络依次连接，所述深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接。

8.根据权利要求7所述的基于深度学习的空气质量预测***，其特征在于，所述输入端，用于接收获取的大气数据检测站点过去48小时至24小时的观测值，以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值；

9.根据权利要求7所述的基于深度学习的空气质量预测***，其特征在于，所述级联C-LSTM网络包括依次连接的两层LSTM网络；

10.根据权利要求根据权利要求7所述的基于深度学习的空气质量预测***，其特征在于，所述深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层；

所述第一全连接层中神经元的个数为16个；

所述第二全连接层中神经元的个数为32个；

所述第三全连接层中神经元的个数为64个；

所述第四全连接层中神经元的个数为32个；

所述第五全连接层中神经元的个数为16个。