CN111369057A - 一种基于深度学习的空气质量预测优化方法及*** - Google Patents
一种基于深度学习的空气质量预测优化方法及*** Download PDFInfo
- Publication number
- CN111369057A CN111369057A CN202010146595.7A CN202010146595A CN111369057A CN 111369057 A CN111369057 A CN 111369057A CN 202010146595 A CN202010146595 A CN 202010146595A CN 111369057 A CN111369057 A CN 111369057A
- Authority
- CN
- China
- Prior art keywords
- network
- air quality
- xgboost
- deep learning
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000003344 environmental pollutant Substances 0.000 abstract description 8
- 231100000719 pollutant Toxicity 0.000 abstract description 8
- 230000007774 longterm Effects 0.000 abstract description 7
- 230000015654 memory Effects 0.000 abstract description 6
- 238000004880 explosion Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 5
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 4
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- JCXJVPUVTGWSNB-UHFFFAOYSA-N Nitrogen dioxide Chemical compound O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种基于深度学习的空气质量预测优化方法及***,本发明在利用足够的历史数据的情况下纠正空气质量模型CMAQ的预测变量和实际分布的偏差,根据传统模型对大气污染物的预测以及大气数据检测站数据,制作待提升数据集,利用长短时记忆网络将传统模型与深度学习算法相结合,完成对空气质量预测的优化。本发明利用级联长短时记忆C‑LSTM网络能更善于挖掘长期的序列特征避免了梯度***的优点,利用XGBoost网络去优化选择时间以及其他辅助因素以去除不重要或干扰特征,通过训练模型,充分提取传统模型预测以及气候等特征,解决了传统模型***性误差的问题。
Description
技术领域
本发明属于空气质量指数预测技术领域,尤其涉及一种基于深度学习的空气质量预测优化方法及***。
背景技术
近年来,环境问题成为了人们关注的热点。空气中不同的污染物能引起的各种人类慢性疾病,包括SO2(二氧化硫),NO2(二氧化氮),NO(一氧化氮),PM2.5以及PM10等。多项研究表明,暴露于高度污染的环境将导致人类的心血管疾病和呼吸***疾病。随着工业的快速发展和人口的增加,空气污染在中国西部地区已成为严重的问题。因此,在城市地区需要建立一个精准的污染物预测及报警***,对人们的生活安排具有重要的作用。然而,由于复杂的空间分布,现有的空气污染预测***很难实现精确的长时间序列污染物预测。另一方面,实时的空气污染检测的影响因素种类较多,例如当地的气候状况和地形特征。在过去的二十年中,由美国EPA提出的社区多尺度空气质量模型(CMAQ)能够根据污染物排放及气象数据对空气中扩散的污染物进行不同时间间隔的预测。同时,天气研究和预报模型(WRF)能够作为CMAQ的辅助***将化学因素输入整体模型。但是,CMAQ模型在考虑时间尺度和空间分布的的综合影响时将在预测***的引入偏置。此外,CMAQ模型受其网格预测的限制,该***无法以较高的空间分辨率预测空气状况。为了提高CMAQ***的预测准确率,一种旨在结合大气扩散建信息的***(ADMS)通过探索颗粒物的化学扩散信息,能够对CMAQ的预测结果进行修正。然而,ADMS***对无法建立长时间的化学扩散评估,因此无法进行CMAQ长时间序列的预测修正。除了CMAQ模型外,地理信息***(GIS)和嵌套空气质量预测建模***(NAQPMS)也是预测空气污染物的常用模型,但是它们是由于模型容量相对有限,因此无法处理大范围的输入变量。通过上述先前的工作,我们发现建立一个长时序的CMAQ的误差纠正模型对于该模型的准确率提升是很有帮助的。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度学习的空气质量预测优化方法及***以在利用历史数据的情况下纠正CMAQ预测变量和实际分布的偏差。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于深度学习的空气质量预测优化方法,包括以下步骤:
S1、获取大气数据检测站点的观测值,以及空气质量模型CMAQ的预测值;
S2、根据所述观测值和预测值得到训练集和测试集,并利用最小最大规格化对所述训练集和测试集进行缩放;
S3、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取,并根据提取后的特征值利用级联C-LSTM网络进行不同时间尺度下的空气质量预测,得到调整后的预测值;
S4、将相关气象数据作为第二XGBoost网络的输入,并根据经第二XGBoost网络筛选后输出的气象数据以及调整后的预测值,利用深度神经网络进行训练,得到误差值;
S5、将所述调整后的预测值以及误差值进行求和计算,并根据计算结果完成基于深度学习的空气质量预测的优化。
进一步地,所述步骤S1具体为:
获取大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值。
再进一步地,所述步骤S2包括如下步骤:
S201、将获取的观测值和预测值利用时间序列转换为输入和输出的顺序对;
S202、将所述输入和输出的顺序对划分为比例为4比1的训练集和测试集;
S203、利用最小最大规格化算法将所述训练集和测试集缩放为0-1之间的映射值。
再进一步地,所述步骤S204中利用最小最大规格化对所述训练集和测试集进行缩放的表达式如下:
其中,max表示数据的最大值,min表示数据的最小值,x表示转换前的数组,x*表示缩放后的数组。
再进一步地,所述步骤S3包括如下步骤:
S301、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取,并将阈值低于10的特征值从训练集和测试集中去除;
S302、利用级联C-LSTM网络对清理后的训练集和测试集进行训练,得到调整后的预测值。
再进一步地,所述步骤S4中的相关气象数据包括温度、温度、风速和气压变量。
基于上述方法,本发明还公开了一种基于深度学习的空气质量预测***,包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型;
所述输入端、第一XGBoost网络和级联C-LSTM网络依次连接,所述深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接;
进一步地,所述输入端,用于接收获取的大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值;
所述第一XGBoost网络,用于对获取的观测值以及预测值进行特征提取;
所述级联C-LSTM网络,用于对经特征提取后的数据进行不同时间尺度下的空气质量预测,得到调整后的预测值;
所述第二XGBoost网络,用于筛选输入的相关气象数据,以去除干扰特征,并将筛选后的相关气象数据输入至深度神经网络中;
所述深度神经网络,用于对经第二XGBoost网络筛选后输出的相关气象数据以及调整后的预测值进行训练,以减少误差。
再进一步地,所述级联C-LSTM网络包括依次连接的两层LSTM网络;
所述第一层LSTM网络,用于对XGBoost网络提取的特征值进行不同时间尺度下的空气质量预测,并将预测结果传输至第二层LSTM网络;
所述第二层LSTM网络,用于结合第一层LSTM网络的预测结果得到调整后的预测值。
再进一步地,所述深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层;
所述第一全连接层中神经元的个数为16个;
所述第二全连接层中神经元的个数为32个;
所述第三全连接层中神经元的个数为64个;
所述第四全连接层中神经元的个数为32个;
所述第五全连接层中神经元的个数为16个。
本发明的有益效果:
(1)本发明提供了一种基于深度学习的空气质量预测优化方法及***,本发明构建了一个物理学时序综合PTC模型,以在利用足够的历史数据的情况下能有效地纠正空气质量模型CMAQ的预测变量和实际分布的偏差;
(2)本发明中利用级联C-LSTM网络更能挖掘长期的序列特征,其具有避免了梯度***的优点;
(3)本发明利用XGBoost网络优化选择时间以及其他辅助因素,以去除不重要或干扰特征;
(4)本发明利用深度神经学习网络对调整后的预测值以及相关气象数据的训练,能充分提取传统模型预测以及气候等特征,解决了传统模型***性误差的问题;
(5)本发明能有效利用传统模型以及天气数据,能获得相比传统模型更准确的预测效果,还能发掘传统模型***误差缺少的重要信息;
(6)本发明能够很好地处理传统方法中需要人为干预调整数据等问题,自动化处理水平较高,可以极大地降低操作人员工作量。
附图说明
图1为本发明的方法流程图。
图2为本发明的***结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明基本思想是根据传统模型对大气污染物的预测以及大气数据检测站数据制作待提升数据集,利用级联C-LSTM长短时记忆网络将传统模型与深度学习算法相结合,利用级联C-LSTM长短时记忆网络能更善于挖掘长期的序列特征避免了梯度***的优点,利用XGBoost网络去优化选择时间以及其他辅助因素以去除不重要或干扰特征,通过训练模型充分提取传统模型预测以及气候等特征,解决了传统模型***性误差的问题。
针对实际中大气污染物预测问题中,潜在的时间及辅助因素太多,前后实际观测值存在时序相关性的特点,构造出输入短时记忆网络参与训练的时序性样本特征集以及输入深层神经网络的气候等特征集,最后引入XGBoost网络提升模型输入量的相关性,根据特征重要性排除低重要性特征以降低维度,通过将XGBoost训练后的重要特征引入长短时记忆网络以及深层神经网络实现对未来长短时预测。如图1所示,本发明提供了一种基于深度学习的空气质量预测优化方法,其实现方法如下:
S1、获取大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值;
S2、根据观测值和预测值得到训练集和测试集,并利用最小最大规格化对所述训练集和测试集进行缩放,其实现方法如下:
S201、将获取的观测值和预测值利用时间序列转换为输入和输出的顺序对;
S202、将输入和输出的顺序对划分为比例为4比1的训练集和测试集;
S203、利用最小最大规格化算法将训练集和测试集缩放为0-1之间的映射值,完成对训练集以及测试集的缩放处理。
本实施例中,将给定大气数据检测站过去48小时至24小时观测值,过去72小时,48小时,24小时空气质量模型CMAQ的预测值,重新组合成短时记忆网络LSTM所需输入样本结构,将当前观测值作为目标输出,将其从时间序列转换为可训练的输入和输出顺序对,并对最终输入输出对进行划分,训练集测试集比例4比1,然后使用最小-最大规格化(min-maxscaler)将数据缩放为0到1之间的映射值:
其中,max表示数据的最大值,min表示数据的最小值,x表示转换前的数组,x*表示缩放后的数组。
本发明的物理学时序综合PTC模型第二部分中使用的数据使用相同的过程来消除尺寸的影响。将最大最小温度,最大最小风力,最大最小湿度,气压,最大最小降雨量,是否为节假日(0和1表示)组合为将来XGBoost特征提取。
S3、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取,并根据提取后的特征值利用级联C-LSTM网络进行不同时间尺度下的空气质量预测,得到调整后的预测值,其实现方法如下:
S301、利用第一XGBoost网络对经缩放处理后的训练集和测试集进行特征提取,并将阈值低于10的特征值从训练集和测试集中去除;
S302、利用级联C-LSTM对清理后的训练集和测试集进行训练,得到调整后的预测值。
本实施例中,利用第一XGBoost网络对数据特征值提取的特点,先对整理好的第一组数据进行特征重要性提取,然后将重要性阈值低于10的特征值从同时从训练测试数据中去除,将清理后的训练集数据作为长短时记忆网络的输入。利用该长短时记忆网络对此输入数据进行训练,可以实现对过去空气质量时间的变化特征进行提取,实现初步的数据修正。长短时神经网络能有效避免梯度***从而对长时间重要关键信息的记忆,使机器获得重要过去气候变化特征。
本实施例中,对输入数据进行训练的表达式如下:
其中,εbase表示空气质量模型CMAQ24小时的空气质量准确度,L表示总预测值个数,YCMAQ24h表示24小时前空气质量模型CMAQ的预测值,Ytrue表示实际准确观测值,εmodel表示误差值,Ymodel表示调整后的预测值。
S4、将相关气象数据作为第二XGBoost网络的输入,并根据经第二XGBoost网络筛选后输出的气象数据以及调整后的预测值,利用深度神经网络进行训练,得到误差值。
本实施例中,计算该调整后的预测值与当前真实值之间的误差值,作为下一层深度神经网络的目标输出,以实现使用深度神经技术将气象数据作为深度神经网络的输入,并使用这些数据进一步近似真实分布。借助此气象特征提取模型,CMAQ模型或C-LSTM忽略的一些重要特征可能具有更大的权重,因此会影响预测值,输入变量包括温度,湿度,风速和气压,与通过神经网络计算权重度量,并确定这些权重的相互影响,是深度神经网络对传统模型以及时序模型忽略的误差的补充调整。相似于步骤S3,该深度神经网络在输入前也需要先使用XGBoost网络提取关键特征,然后将提取后的特征作为深层神经网络的输入。深层神经网络训练后的输出再加上上一级C-LSTM输出共同构成最终预测结果。
S5、将调整后的预测值以及误差值进行相加计算,并根据计算结果完成基于深度学习的空气质量预测的优化。
本实施例中,将测试样本集中的数据进行相同数据处理操作后,并通过训练后的C-LSTM模型后,然后将深度神经网络的输入数据输入训练后的网络,最后将第一级与第二级的结果求和得到最终输出。我们通过测量CMAQ 24小时预测εbase与实际观测值之间的欧几里得距离以及我们的偏差校正模型预测εmodel和实际观测值来验证模型,经此模型修正后的传统模型较修正前有较大的结果改进。
本实施例中,预测过程包括4个部分:(1)将不同时间间隔下空气质量模型CMAQ的预测值作为模型训练的先验预测变量;(2)利用XGBoost网络筛选重要特征并消除负面输入变量带来的影响;(3)级联LSTM利用空气质量模型CMAQ预测值和先前的空气监测指标来进行不同时间尺度下的空气质量预测;(4)通过涉及辅助信息(气候数据,季节,人为因素等)的深度神经网络(DNN)进一步校正级联LSTM的输出结果。
如图2所示,基于上述方法,本发明还公开了一种基于深度学习的空气质量预测***,包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型;输入端、第一XGBoost网络和级联C-LSTM网络依次连接,深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接。
本实施例中,输入端,用于接收获取的大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值。
本实施例中,第一XGBoost网络,用于对获取的观测值以及预测值进行特征提取。
本实施例中,级联C-LSTM网络,用于对经特征提取后的数据进行不同时间尺度下的空气质量预测,得到调整后的预测值。
本实施例中,第二XGBoost网络,用于筛选输入的相关气象数据,以去除干扰特征,并将筛选后的相关气象数据输入至深度神经网络中。
本实施例中,深度神经网络,用于对经第二XGBoost网络筛选后输出的相关气象数据以及调整后的预测值进行训练,以减少误差。
本实施例中,级联C-LSTM网络包括依次连接的两层LSTM网络;第一层LSTM网络,用于对XGBoost网络提取的特征值进行不同时间尺度下的空气质量预测,并将预测结果传输至第二层LSTM网络;第二层LSTM网络,用于结合第一层LSTM网络的预测结果得到调整后的预测值。
本实施例中,深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层;第一全连接层中神经元的个数为16个;第二全连接层中神经元的个数为32个;第三全连接层中神经元的个数为64个;第四全连接层中神经元的个数为32个;第五全连接层中神经元的个数为16个。
本发明能有效利用传统模型以及天气数据,能获得相比传统模型更准确的预测效果,还能发掘传统模型***误差缺少的重要信息,以在利用历史数据的情况下纠正CMAQ预测变量和实际分布的偏差;本发明能够很好地处理传统方法中需要人为干预调整数据等问题;本发明的自动化处理水平较高,可以极大地降低操作人员工作量。
Claims (10)
1.一种基于深度学习的空气质量预测优化方法,其特征在于,包括以下步骤:
S1、获取大气数据检测站点的观测值,以及空气质量模型CMAQ的预测值;
S2、根据所述观测值和预测值得到训练集和测试集,并利用最小最大规格化对所述训练集和测试集进行缩放;
S3、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取,并根据提取后的特征值利用级联C-LSTM网络进行不同时间尺度下的空气质量预测,得到调整后的预测值;
S4、将相关气象数据作为第二XGBoost网络的输入,并根据经第二XGBoost网络筛选后输出的气象数据以及调整后的预测值,利用深度神经网络进行训练,得到误差值;
S5、将所述调整后的预测值以及误差值进行求和计算,并根据计算结果完成基于深度学习的空气质量预测的优化。
2.根据权利要求1所述的基于深度学习的空气质量预测优化方法,其特征在于,所述步骤S1具体为:
获取大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值。
3.根据权利要求1所述的基于深度学习的空气质量预测优化方法,其特征在于,所述步骤S2包括如下步骤:
S201、将获取的观测值和预测值利用时间序列转换为输入和输出的顺序对;
S202、将所述输入和输出的顺序对划分为比例为4比1的训练集和测试集;
S203、利用最小最大规格化算法将所述训练集和测试集缩放为0-1之间的映射值。
5.根据权利要求1所述的基于深度学习的空气质量预测优化方法,其特征在于,所述步骤S3包括如下步骤:
S301、利用第一XGBoost网络对所述经缩放处理后的训练集和测试集进行特征提取,并将阈值低于10的特征值从训练集和测试集中去除;
S302、利用级联C-LSTM网络对清理后的训练集和测试集进行训练,得到调整后的预测值。
6.根据权利要求1所述的基于深度学习的空气质量预测优化方法,其特征在于,所述步骤S4中的相关气象数据包括温度、温度、风速和气压变量。
7.一种基于深度学习的空气质量预测***,其特征在于,包括由输入端、第一XGBoost网络、级联C-LSTM网络、第二XGBoost网络以及深度神经网络构成的物理学时序综合PTC模型;
所述输入端、第一XGBoost网络和级联C-LSTM网络依次连接,所述深度神经网络分别与所述第二XGBoost网络和级联C-LSTM网络连接。
8.根据权利要求7所述的基于深度学习的空气质量预测***,其特征在于,所述输入端,用于接收获取的大气数据检测站点过去48小时至24小时的观测值,以及过去72小时、48小时和24小时空气质量模型CMAQ的预测值;
所述第一XGBoost网络,用于对获取的观测值以及预测值进行特征提取;
所述级联C-LSTM网络,用于对经特征提取后的数据进行不同时间尺度下的空气质量预测,得到调整后的预测值;
所述第二XGBoost网络,用于筛选输入的相关气象数据,以去除干扰特征,并将筛选后的相关气象数据输入至深度神经网络中;
所述深度神经网络,用于对经第二XGBoost网络筛选后输出的相关气象数据以及调整后的预测值进行训练,以减少误差。
9.根据权利要求7所述的基于深度学习的空气质量预测***,其特征在于,所述级联C-LSTM网络包括依次连接的两层LSTM网络;
所述第一层LSTM网络,用于对XGBoost网络提取的特征值进行不同时间尺度下的空气质量预测,并将预测结果传输至第二层LSTM网络;
所述第二层LSTM网络,用于结合第一层LSTM网络的预测结果得到调整后的预测值。
10.根据权利要求根据权利要求7所述的基于深度学习的空气质量预测***,其特征在于,所述深度神经网络包括依次连接的正则化函数、第一全连接层、第二全连接层、第三全连接层、第四全连接层以及第五全连接层;
所述第一全连接层中神经元的个数为16个;
所述第二全连接层中神经元的个数为32个;
所述第三全连接层中神经元的个数为64个;
所述第四全连接层中神经元的个数为32个;
所述第五全连接层中神经元的个数为16个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010146595.7A CN111369057A (zh) | 2020-03-05 | 2020-03-05 | 一种基于深度学习的空气质量预测优化方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010146595.7A CN111369057A (zh) | 2020-03-05 | 2020-03-05 | 一种基于深度学习的空气质量预测优化方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111369057A true CN111369057A (zh) | 2020-07-03 |
Family
ID=71206620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010146595.7A Pending CN111369057A (zh) | 2020-03-05 | 2020-03-05 | 一种基于深度学习的空气质量预测优化方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369057A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985681A (zh) * | 2020-07-10 | 2020-11-24 | 河北思路科技有限公司 | 数据预测方法、模型训练方法、装置、设备 |
CN112163335A (zh) * | 2020-09-25 | 2021-01-01 | 广东电科院能源技术有限责任公司 | 一种NOx浓度预测模型的训练方法、预测方法和装置 |
CN112529240A (zh) * | 2020-09-14 | 2021-03-19 | 桂林电子科技大学 | 一种大气环境数据的预测方法、***、装置及存储介质 |
CN113158578A (zh) * | 2021-05-06 | 2021-07-23 | 北京邮电大学 | 基于机器学习的海洋低空波导预测方法 |
CN113468799A (zh) * | 2021-05-13 | 2021-10-01 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种静止气象卫星观测中获取近地面pm2.5浓度的方法及*** |
CN114239943A (zh) * | 2021-12-09 | 2022-03-25 | 中国建筑科学研究院天津分院 | 一种气溶胶浓度预测方法 |
CN114565136A (zh) * | 2022-01-27 | 2022-05-31 | 内蒙古工业大学 | 一种基于生成对抗网络的空气质量预测优化方法 |
CN115237896A (zh) * | 2022-07-12 | 2022-10-25 | 四川大学 | 一种基于深度学习预报空气质量的数据前处理方法及*** |
CN116307292A (zh) * | 2023-05-22 | 2023-06-23 | 安徽中科蓝壹信息科技有限公司 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492907A (zh) * | 2018-11-08 | 2019-03-19 | 成都市环境保护科学研究院 | 基于cmaq模型的空气质量措施评估方法、***、存储介质和终端 |
CN109738972A (zh) * | 2018-12-29 | 2019-05-10 | 中科三清科技有限公司 | 空气污染物预报方法、装置及电子设备 |
-
2020
- 2020-03-05 CN CN202010146595.7A patent/CN111369057A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492907A (zh) * | 2018-11-08 | 2019-03-19 | 成都市环境保护科学研究院 | 基于cmaq模型的空气质量措施评估方法、***、存储介质和终端 |
CN109738972A (zh) * | 2018-12-29 | 2019-05-10 | 中科三清科技有限公司 | 空气污染物预报方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
CHUNBO LUO等: "A Model-driven and Data-driven Fusion Framework for Accurate Air Quality Prediction", 《ARXIV》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985681A (zh) * | 2020-07-10 | 2020-11-24 | 河北思路科技有限公司 | 数据预测方法、模型训练方法、装置、设备 |
CN112529240A (zh) * | 2020-09-14 | 2021-03-19 | 桂林电子科技大学 | 一种大气环境数据的预测方法、***、装置及存储介质 |
CN112529240B (zh) * | 2020-09-14 | 2024-05-07 | 桂林电子科技大学 | 一种大气环境数据的预测方法、***、装置及存储介质 |
CN112163335A (zh) * | 2020-09-25 | 2021-01-01 | 广东电科院能源技术有限责任公司 | 一种NOx浓度预测模型的训练方法、预测方法和装置 |
CN113158578A (zh) * | 2021-05-06 | 2021-07-23 | 北京邮电大学 | 基于机器学习的海洋低空波导预测方法 |
CN113468799A (zh) * | 2021-05-13 | 2021-10-01 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种静止气象卫星观测中获取近地面pm2.5浓度的方法及*** |
CN114239943A (zh) * | 2021-12-09 | 2022-03-25 | 中国建筑科学研究院天津分院 | 一种气溶胶浓度预测方法 |
CN114565136A (zh) * | 2022-01-27 | 2022-05-31 | 内蒙古工业大学 | 一种基于生成对抗网络的空气质量预测优化方法 |
CN114565136B (zh) * | 2022-01-27 | 2024-01-26 | 内蒙古工业大学 | 一种基于生成对抗网络的空气质量预测优化方法 |
CN115237896A (zh) * | 2022-07-12 | 2022-10-25 | 四川大学 | 一种基于深度学习预报空气质量的数据前处理方法及*** |
CN116307292A (zh) * | 2023-05-22 | 2023-06-23 | 安徽中科蓝壹信息科技有限公司 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369057A (zh) | 一种基于深度学习的空气质量预测优化方法及*** | |
CN111798051B (zh) | 基于长短期记忆神经网络的空气质量时空预测方法 | |
CN109873610B (zh) | 基于iv特性和深度残差网络的光伏阵列故障诊断方法 | |
CN111080032A (zh) | 一种基于Transformer结构的负荷预测方法 | |
CN110210660B (zh) | 一种超短期风速预测方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN113344288B (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN112149887A (zh) | 一种基于数据时空特征的pm2.5浓度预测方法 | |
CN115237896B (zh) | 一种基于深度学习预报空气质量的数据前处理方法及*** | |
CN112183625A (zh) | 一种基于深度学习的pm2.5高精度时空预测方法 | |
CN112801332B (zh) | 一种基于灰度共生矩阵的短期风速预测方法 | |
CN113011660A (zh) | 空气质量预测方法、***及存储介质 | |
CN116307291B (zh) | 一种基于小波分解的分布式光伏发电预测方法及预测终端 | |
CN116307212A (zh) | 一种新型空气质量预测方法及*** | |
CN115186923A (zh) | 光伏发电功率的预测方法、装置及电子设备 | |
CN113984198B (zh) | 一种基于卷积神经网络的短波辐射预测方法及*** | |
CN110852493A (zh) | 基于多种模型对比的大气pm2.5浓度预测方法 | |
CN114882373A (zh) | 基于深度神经网络的多特征融合沙尘暴预测方法 | |
CN117391139A (zh) | 基于改进UNet神经网络的天气现象预报订正方法 | |
CN117200223A (zh) | 日前电力负荷预测方法和装置 | |
CN115907131B (zh) | 一种北方地区电采暖负荷预测模型搭建方法和*** | |
CN114529035A (zh) | 一种基于cart的多模式集成模型的风速预报方法 | |
CN115238967A (zh) | 一种结合云图和相邻电站集群的光伏功率预测方法及装置 | |
CN113344293A (zh) | 一种基于nca-融合回归树模型的光伏功率预测方法 | |
CN113408191A (zh) | 一种基于图自监督学习的pm2.5预测方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |