CN115951014A - 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 - Google Patents
一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 Download PDFInfo
- Publication number
- CN115951014A CN115951014A CN202211456742.6A CN202211456742A CN115951014A CN 115951014 A CN115951014 A CN 115951014A CN 202211456742 A CN202211456742 A CN 202211456742A CN 115951014 A CN115951014 A CN 115951014A
- Authority
- CN
- China
- Prior art keywords
- data
- meteorological
- pollutant
- cnn
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000000809 air pollutant Substances 0.000 title claims abstract description 54
- 231100001243 air pollutant Toxicity 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 89
- 231100000719 pollutant Toxicity 0.000 claims abstract description 89
- 230000008859 change Effects 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 239000000356 contaminant Substances 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 7
- 238000003379 elimination reaction Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims 1
- 238000005094 computer simulation Methods 0.000 abstract 1
- 241000282414 Homo sapiens Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002354 daily effect Effects 0.000 description 5
- 238000003915 air pollution Methods 0.000 description 4
- 230000006378 damage Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 238000003916 acid precipitation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000010792 warming Methods 0.000 description 2
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 239000000926 atmospheric chemistry Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 208000030533 eye disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000020477 pH reduction Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种结合气象特征的CNN‑LSTM‑BP多模态空气污染物预测方法,包括以下步骤:采集监测站空气质量数据,对异常值和缺失值预处理;利用皮尔逊相关系数对数据进行分析,挖掘气象因素与不同污染物之间的相关性,选取高相关性的气象因素作为辅助特征;构建卷积‑长短时记忆网络(CNN‑LSTM)对多种空气污染物时间变化规律及其相互关进行系建模与特征提取,利用CNN对影响空气质量的气象因素时间变化规律进行建模与特征提取;通过BP网络将多种污染物与气象因素特征融合、并进行预测,获取多种污染物的预测值。本发明构建多模态空气污染物预测模型,充分考虑不同污染物之间的影响、气象条件的变化,有效提高空气污染物预测模型的精度。
Description
技术领域
本发明属于环境监测和深度学习领域,具体为一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法。
技术背景
近年来大气污染问题日益严重,其危害已遍及全球。大气污染的影响主要体现在:臭氧层破坏、酸雨和全球气候变暖。臭氧层的破坏可导致人类眼部疾病和皮肤癌发病率的上升;酸雨会导致土壤酸化以及建筑物的腐蚀,影响植物正常发育和建筑物使用寿命。全球气候变暖更是危害人类生存和发展的一个重大隐患,海平面上升、森林火灾、极端天气等都是环境向人类发起的最严峻的挑战,大气污染达到足够的浓度和持续时间会严重影响人体的健康,因此,环境治理问题受到越来越多国家的关注,大气污染问题的解决迫在眉睫。
实践表明,空气质量预报模型可以对可能发生的污染进行预测并采取控制措施,能够有效减轻大气污染对人类和环境产生的危害,为此,制定合理的污染防治措施受到越来越多国家和相关部门的重视。WRF-CMAQ是目前常用的空气质量预报模型,它由提供气象场数据的WRF(中尺度数值天气预报***)和通过模拟污染物变化过程得到预报结果的CMAQ(三维欧拉大气化学与传输模拟***)组成。然而由于模拟的气象场、排放清单和污染物生成机理等因素的不确定性,目前已有基于物理模型的预测结果并不理想。
发明内容
发明目的:针对上述问题,本发明引入一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,该方法针对现有物理预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。
本发明有效利用机器学习和深度学习方法对多种空气污染物历史数据的时间变化规律及其相互影响关系、高关联气象数据的时间变化规律进行准确的建模与特征提取,建立数据驱动的污染物-气象多模态空气质量预测模型,从而准确预测空气中有害的污染物浓度。
技术方案:一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法包括如下步骤:
步骤1)采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值和缺失值进行预处理来降低数据冗余度;
步骤2)利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入;
步骤3)构建基于CNN-LSTM的空气污染物特征提取网络,学习多种污染物历史实测数据逐日、逐小时的变化规律及其相互影响关系;构建基于CNN的气象因素辅助特征提取网络,学习各气象数据数据逐日、逐小时的变化规律;通过BP网络将各污染物时序特征与气象辅助特征进行融合、并预测获取各个污染物预测输出;
步骤4)训练所构建的基于CNN-LSTM-BP的空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值。
进一步,所述步骤1中,采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值进行数据剔除,对缺失值进行数据填充,以此来进行数据预处理,降低数据冗余,具体步骤如下:
1-1:数据剔除,步骤如下:
1-1-1:对违背客观事实数据进行剔除,剔除污染物监测浓度小于0的数值、剔除湿度大于100%的数值、剔除风速小于0的数值、剔除风向小于0°大于360°的数值;
1-1-2:对偏离正常分布数据进行剔除。利用基于距离的异常值检测算法检测偏离正常分布的数据,首先计算连续的5个点{xp-2,xp-1,xp,xp+1,xp+2}的均值xpEve,如式(1)所示:
xpEve=EVERAGE(xp-2,xp-1,xp,xp+1,xp+2)#(1)
式中x代表不同的参数如SO2监测浓度等,p代表数值在参数序列中的位置。然后,计算5个点与均值的差值的绝对值,如式(2)所示:
xiErr=|xpEve-xi|,i∈[p-2,p+2]#(2)
最后,记除xp外的其余误差为xpErr,如果xpErr大于三倍的xpErrEve则xp为异常数据即判断条件如式(3)所示:
xpErrEve=EVERAGE(xp-2Er,xp-1E,xp+1Err,xp+2Err)#(3)
其中,xpErr>3*xpErrEve。
1-2:数据填充步骤如下:
1-2-1:由于数据缺失的程度对修复方***度差异较大,因此当连续丢失的数据小于三帧时采用均值填充缺失数据进行填补。该方法就是将现有数据的对应属性均值填充给缺失值,公式定义如式(4)所示:
xmiss=EVERAGE(xbefore,xafter)#(4)
式中xmiss为缺失数据,xbefore为缺失数据的前一个数据,xafter为数据缺失的后一个数据。
1-2-2:当连续丢失的数据大于三帧时采用EM填充,该方法填充通过极大似然估计计算缺失值,能通过自身稳定的迭代过程找到全局最优解。首先设观察数据x=(x(1),x(2),…x(m)),缺失数据z=(z(1),z(2),…z(m)),联合分布p(x,z|θ),条件分布p(z|x,θ),最大迭代次数J。将j从1取值到J开始进行EM算法迭代:先计算联合分布的条件概率期望,公式如式(5)(6)所示:
Qi(z(i))=P(z(i)|x(i),θ(j))#(5)
再极大化L(θ,θj),得到θj+1,公式如式(7)所示:
如果θj+1已收敛,则算法结束,否则继续进行E步迭代。最后输出模型参数θ,根据模型输出的结果进行缺失数据的填充。
进一步,所述步骤2中,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。皮尔逊相关系数是广泛用于度量两个序列之间相关程度的一种参数,公式如式(8)所示:
根据皮尔逊相关系数分析的结果,按关联性数值进行排序,筛选得到关联性前K的气象因素{weather1,weather2,...,weatherx}。
进一步,所述步骤3)中,构建基于CNN-LSTM的空气污染物特征提取网络,通过卷积神经网络(CNN)和长短时记忆网络(LSTM)组件学习各污染物历史实测数据逐日和逐小时的变化规律及各污染物之间的影响关系,经过Reshape操作得到各个污染物的时序特征;利用CNN对高关联气象数据进行特征提取,经过Reshape操作得到气象辅助特征。接着,在BP网络中将各污染物时序特征与气象辅助特征拼接作为网络输入,预测得到各个污染物预测输出,具体步骤如下:
3-1:建立基于CNN和LSTM框架的CNN-STM空气污染物特征提取网络,表征各个污染浓度的逐小时变化和逐日变化及其相互影响关系,具体步骤如下:
3-1-1:将步骤1处理后的污染物数据转化为矩阵X(M×M矩阵),Xi代表第i种污染物类型,Xi的列和行分别代表每天和每小时记录的污染物数据,即Xi={xi(h,d)},h∈[1,M];d∈[1,M]。
3-1-2:采用CNN模型提取污染物数据的逐日和逐小时时间特征。其关键步骤是卷积层,其中滤波器通过滤波器和输入元素(M×M矩阵)之间的卷积运算在每个输入元素中移动。使用ωf表示滤波器,其中f表示滤波器的索引,f∈{1,2,…,F},过滤器大小为L*L(L为超参),滤波器将在M×M输入元件上滑动卷积,因此卷积层输出的大小为(M-L+1)2,卷积公式如式(9)所示:
3-1-3:卷积之后,进行最大池化操作,以生成所选块的最大值(K×K,K超参数,代表池化过滤器大小),它类似于卷积层,过滤器按K个单元移动不会对输入矩阵的重叠部分进行过滤,公式如式(10)所示:
3-1-4:各污染物数据池化后进行Reshape操作,将矩阵转化为一维向量。为了提取污染物之间的时间互关联性,将Reshape之后的特征输入LSTM,得到污染物之间关系融合的时序特征,LSTM的计算方式如下:
it=σ(Yi·[ht-1,Xt]+ai)#(12)
ft=σ(Yf·[ht-1,Xt]+af)#(13)
Ut=σ(Yo·[ht-1,Xt]+ao)#(14)
O(t)=tanh(Ht)*Ut#(16)
其中代表***的单元状态,it、ft、Ut代表***的输入门、隐藏门、输出门,Ht代表***的当前状态,O(t)代表***的当前时刻的输出,YC、Yi、Yf、Yo为LSTM的参数矩阵,其初始值为范围为[-0.1,0.1]的随机矩阵,aC、ai、af、ao为LSTM的偏置,其初始值为零向量,*代表哈达玛积,it、ft、Ut分别是LSTM的输入门,遗忘门,输出门,3个门通过Sigmoid函数输出0-1的数以控制门的开关程度从而实现对***状态H的输入量的控制,原有状态的保持以及输出量的控制;
3-2:建立基于CNN的气象特征提取网络,表征高关联气象数据逐小时变化和逐日变化规律,具体步骤如下:
3-2-1:将步骤2处理后的天气数据转化为矩阵W(M×M矩阵),Wi代表第i种天气类型,Wi的列和行分别代表每天和每小时记录的天气数据,即Wi={wi(h,d)},h∈[1,M];d∈[1,M]。
3-2-2:将多种高关联气象数据堆叠为多通道矩阵,按照3-1-2所描述步骤,通过卷积和池化进行特征提取并经过Reshape操作转化为一维向量,作为气象辅助特征;
3-3:将污染物融合时序特征与气象辅助特征拼接作为BP网络的输入,利用BP网络进行特征融合,融合后输出污染物的预测值。BP网络的连接方式如公式(17)所示:
Ypol(n)=fBP(Xpol(n)||Xweafuse)#(17)
其中,Ypol(n)代表第n个污染物的预测输出,Xpol(n)代表第n个污染物的融合时序特征,Xweafuse代表气象融合特征,fBP代表全连接操作,||代表串联操作;
3-4:建立模型目标函数,具体步骤如下:
3-4-1:建立目标函数1,使得模型预测结果的最大相对误差尽量小;
目标函数1公式如式(18)所示:
3-4-2:建立目标函数2,使得污染物预测准确度尽量高;
要使污染物预测准确度尽量高,使用均方根误差(RMSE)作为评价指标,RMSE的公式如式(19)所示:
进一步,所述步骤4中,训练步骤3)中构建的基于CNN-LSTM-BP多模态空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值,具体步骤如下:
4-1:初始化模型结构,确定网络卷积核维度、初始权重、训练步长、激活函数、隐藏层层数和迭代次数;
4-2:使用预测集来测试模型的预测精度,以RMSE为评价指标,得到模型的预测精度;
4-3:使用相同训练集和测试集训练传统LSTM来进行模型对比。
有益效果:本发明的空气污染物预测方法针对目前已有预报模型由于模拟的气象场、排放清单和污染物生成机理等因素的不确定性,导致预测结果并不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型,充分考虑不同污染物之间的影响、气象条件的变化,有效提高空气污染物预测模型的精度。
本发明引入一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,该方法针对现有预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。
附图说明
图1为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法步骤示意图;
图2为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法气象数据与污染物相关系数热力图(以南通市数据为例);
图3为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法模型结构图;
图4为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法模型训练迭代图;
图5为本发明的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法真实数据与预测数据对比图;
具体实施步骤
下面将结合说明书附图对本发明的技术方法做进一步的详细说明。
如图1所示,一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,包括如下步骤:
步骤1)采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值和缺失值进行预处理来降低数据冗余度;
所述步骤1中,采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值进行数据剔除,对缺失值进行数据填充,以此来进行数据预处理,降低数据冗余,具体步骤如下:
1-1:数据剔除,步骤如下:
1-1-1:对违背客观事实数据进行剔除,剔除污染物监测浓度小于0的数值、剔除湿度大于100%的数值、剔除风速小于0的数值、剔除风向小于0°大于360°的数值;
1-1-2:对偏离正常分布数据进行剔除。利用基于距离的异常值检测算法检测偏离正常分布的数据,首先计算连续的5个点{xp-2,xp-1,xp,xp+1,xp+2}的均值xpEve,如式(1)所示:
xpEve=EVERAGE(xp-2,xp-1,xp,xp+1,xp+2)#(1)
式中x代表不同的参数如SO2监测浓度等,p代表数值在参数序列中的位置。然后,计算5个点与均值的差值的绝对值,如式(2)所示:
xiErr=|xpEve-xi|,i∈[p-2,p+2]#(2)
最后,记除xp外的其余误差为xpErrEve,如果xpErr大于三倍的xpErrE则xp为异常数据即判断条件如式(3)所示:
xpErrEve=EVERAGE(xp-2Er,xp-1Er,xp+1Er,xp+2Er)#(3)
其中,xpErr>3*xpErrEve。
1-2:数据填充步骤如下:
1-2-1:由于数据缺失的程度对修复方***度差异较大,因此当连续丢失的数据小于三帧时采用均值填充缺失数据进行填补。该方法就是将现有数据的对应属性均值填充给缺失值,公式定义如式(4)所示:
xmiss=EVERAGE(xbefore,xafter)#(4)
式中xmiss为缺失数据,xbefore为缺失数据的前一个数据,xaft为数据缺失的后一个数据。
1-2-2:当连续丢失的数据大于三帧时采用EM填充,该方法填充通过极大似然估计计算缺失值,能通过自身稳定的迭代过程找到全局最优解。首先设观察数据x=(x(1),x(2),…x(m)),缺失数据z=(z(1),z(2),…z(m)),联合分布p(x,z|θ),条件分布p(z|x,θ),最大迭代次数J。将j从1取值到J开始进行EM算法迭代:先计算联合分布的条件概率期望,公式如式(5)(6)所示:
Qi(z(i))=P(z(i)|x(i),θ(j))#(5)
再极大化L(θ,θj),得到θj+1,公式如式(7)所示:
如果θj+1已收敛,则算法结束,否则继续进行E步迭代。最后输出模型参数θ,根据模型输出的结果进行缺失数据的填充。
步骤2)利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入;
所述步骤2中,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。皮尔逊相关系数是广泛用于度量两个序列之间相关程度的一种参数,公式如式(8)所示:
根据皮尔逊相关系数分析的结果,按关联性数值进行排序,筛选得到关联性前K的气象因素{weather1,weather2,…,weatherx}。以采集到的南通市空气污染物数据为例,南通市每日0点,6点,12点,18点的相关系数热力图如图2所示,图中方块中的数据为具体相关性数值,红色方块为正相关,蓝色方块为负相关,白色为不相关,颜色越深则序列的相关性程度越高。
步骤3)构建基于CNN-LSTM的空气污染物特征提取网络,学习多种污染物历史实测数据逐日、逐小时的变化规律及其相互影响关系;构建基于CNN的气象因素辅助特征提取网络,学习各气象数据数据逐日、逐小时的变化规律;通过BP网络将各污染物时序特征与气象辅助特征进行融合、并预测获取各个污染物预测输出;
所述步骤3)中,构建基于CNN-LSTM的空气污染物特征提取网络,整体网络结构如图3所示。通过卷积神经网络(CNN)和长短时记忆网络(LSTM)组件学习各污染物历史实测数据逐日和逐小时的变化规律及各污染物之间的影响关系,经过Reshape操作得到各个污染物的时序特征;利用CNN对高关联气象数据进行特征提取,经过Reshape操作得到气象辅助特征。接着,在BP网络中将各污染物时序特征与气象辅助特征拼接作为网络输入,预测得到各个污染物预测输出,具体步骤如下:
3-1:建立基于CNN和LSTM框架的CNN-STM空气污染物特征提取网络,表征各个污染浓度的逐小时变化和逐日变化及其相互影响关系,具体步骤如下:
3-1-1:将步骤1处理后的污染物数据转化为矩阵X(M×M矩阵),Xi代表第i种污染物类型,Xi的列和行分别代表每天和每小时记录的污染物数据,即Xi={xi(h,d)},h∈[1,M];d∈[1,M]。
3-1-2:采用CNN模型提取污染物数据的逐日和逐小时时间特征。其关键步骤是卷积层,其中滤波器通过滤波器和输入元素(M×M矩阵)之间的卷积运算在每个输入元素中移动。使用ωf表示滤波器,其中f表示滤波器的索引,f∈{1,2,…,F},过滤器大小为L*L(L为超参),滤波器将在M×M输入元件上滑动卷积,因此卷积层输出的大小为(M-L+1)2,卷积公式如式(9)所示:
3-1-3:卷积之后,进行最大池化操作,以生成所选块的最大值(K×K,K超参数,代表池化过滤器大小),它类似于卷积层,过滤器按K个单元移动不会对输入矩阵的重叠部分进行过滤,公式如式(10)所示:
3-1-4:各污染物数据池化后进行Reshape操作,将矩阵转化为一维向量。为了提取污染物之间的时间互关联性,将Reshape之后的特征输入LSTM,得到污染物之间关系融合的时序特征,LSTM的计算方式如下:
it=σ(Yi·[ht-1,Xt]+ai)#(12)
ft=σ(Yf·[ht-1,Xt]+af)#(13)
Ut=σ(Yo·[ht-1,Xt]+ao)#(14)
O(t)=tanh(Ht)*Ut#(16)
其中代表***的单元状态,it、ft、Ut代表***的输入门、隐藏门、输出门,Ht代表***的当前状态,O(t)代表***的当前时刻的输出,YC、Yi、Yf、Yo为LSTM的参数矩阵,其初始值为范围为[-0.1,0.1]的随机矩阵,ac、ai、af、ao为LSTM的偏置,其初始值为零向量,*代表哈达玛积,it、ft、Ut分别是LSTM的输入门,遗忘门,输出门,3个门通过Sigmoid函数输出0-1的数以控制门的开关程度从而实现对***状态H的输入量的控制,原有状态的保持以及输出量的控制;
3-2:建立基于CNN的气象特征提取网络,表征高关联气象数据逐小时变化和逐日变化规律,具体步骤如下:
3-2-1:将步骤2处理后的天气数据转化为矩阵W(M×M矩阵),Wi代表第i种天气类型,Wi的列和行分别代表每天和每小时记录的天气数据,即Wi={wi(h,d)},h∈[1,M];d∈[1,M]。
3-2-2:将多种高关联气象数据堆叠为多通道矩阵,按照3-1-2所描述步骤,通过卷积和池化进行特征提取并经过Reshape操作转化为一维向量,作为气象辅助特征;
3-3:将污染物融合时序特征与气象辅助特征拼接作为BP网络的输入,利用BP网络进行特征融合,融合后输出污染物的预测值。BP网络的连接方式如公式(17)所示:
Ypol(n)=fBP(Xpol(n)||Xweafuse)#(17)
其中,Ypol(n)代表第n个污染物的预测输出,Xpol(n)代表第n个污染物的融合时序特征,Xweafuse代表气象融合特征,fBP代表全连接操作,||代表串联操作;
3-4:建立模型目标函数,具体步骤如下:
3-4-1:建立目标函数1,使得模型预测结果的最大相对误差尽量小;
目标函数1公式如式(18)所示:
3-4-2:建立目标函数2,使得污染物预测准确度尽量高;
要使污染物预测准确度尽量高,使用均方根误差(RMSE)作为评价指标,RMSE的公式如式(19)所示:
步骤4)训练所构建的基于CNN-LSTM-BP的空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值。
所述步骤4中,训练步骤3)中构建的基于CNN-LSTM-BP多模态空气污染物预测网络,训练迭代图如图4。并用训练好的模型预测未来空气污染物浓度值,具体步骤如下:
4-1:初始化模型结构,确定网络卷积核维度、初始权重、训练步长、激活函数、隐藏层层数和迭代次数;
4-2:使用预测集来测试模型的预测精度,以RMSE为评价指标,得到模型的预测精度;
4-3:使用相同训练集和测试集训练传统LSTM来进行模型对比,对比结果如图5所示。
该方法针对现有物理预报模型预测效果不理想的问题,在数据驱动的基础上,建立了基于CNN-LSTM-BP网络的空气污染物预测模型。首先,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入。然后,构建基于CNN-LSTM的空气污染物特征提取网络,来表述各污染物历史实测数据逐日、逐小时变化规律及其相互影响关系;构建CNN气象特征提取网络表征高关联气象数据逐日、逐小时变化规律;通过BP网络将各个污染物时序特征与气象辅助特征进行拼接,预测获取各个污染物的预测值。本发明有效利用机器学习和深度学习方法对多种空气污染物历史数据的时间变化规律及其相互影响关系、高关联气象数据的时间变化规律进行准确的建模与特征提取,建立数据驱动的污染物-气象多模态空气质量预测模型,从而准确预测空气中有害的污染物浓度,提醒相关部门及时采取控制措施,有效减轻大气污染对人类和环境产生的危害。
以上所述仅为本发明在南通市崇川区空气质量数据集下较好的实施方式,本发明保护范围并不以上述实施方式为限制,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修改和其他修饰变化,皆应纳入权利要求书记载的保护范围。
Claims (5)
1.一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,其特征在于:包括如下步骤:
步骤1)采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值和缺失值进行预处理来降低数据冗余度;
步骤2)利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为气象辅助特征输入;
步骤3)构建基于CNN-LSTM的空气污染物特征提取网络,学习多种污染物历史实测数据逐日、逐小时的变化规律及其相互影响关系;构建基于CNN的气象因素辅助特征提取网络,学习各气象数据数据逐日、逐小时的变化规律;通过BP网络将各污染物时序特征与气象辅助特征进行融合、并预测获取各个污染物预测输出;
步骤4)训练所构建的基于CNN-LSTM-BP的空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值。
2.根据权利要求1所述的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,其特征在于:所述步骤1)中,采集环境监测站空气质量数据,并将数据实时传输至后台服务器,对原始数据中的异常值进行数据剔除,对缺失值进行数据填充,以此来进行数据预处理,降低数据冗余,具体步骤如下:
1-1:数据剔除,步骤如下:
1-1-1:对违背客观事实数据进行剔除,剔除污染物监测浓度小于0的数值、剔除湿度大于100%的数值、剔除风速小于0的数值、剔除风向小于0°大于360°的数值;
1-1-2:对偏离正常分布数据进行剔除,利用基于距离的异常值检测算法检测偏离正常分布的数据,首先计算连续的5个点{xp-2,xp-1,xp,xp+1,xp+2}的均值xpEve,如式(1)所示:
xpEv=EVERAGE(xp-2,xp-1,xp,xp+1,xp+2)#(1)
式中x代表不同的参数如SO2监测浓度等,p代表数值在参数序列中的位置,然后,计算5个点与均值的差值的绝对值,如式(2)所示:
xiErr=|xpEve-xi|,i∈[p-2,p+2]#(2)
最后,记除xp外的其余误差为xpErrEve,如果xpErr大于三倍的xpErrEve则xp为异常数据即判断条件如式(3)所示:
xpErrE=EVERAGE(xp-2Err,xp-1Err,xp+1Err,xp+2Err)#(3)
其中,xpEr>3*xpErrEve;
1-2:数据填充步骤如下:
1-2-1:由于数据缺失的程度对修复方***度差异较大,因此当连续丢失的数据小于三帧时采用均值填充缺失数据进行填补;该方法就是将现有数据的对应属性均值填充给缺失值,公式定义如式(4)所示:
xmiss=EVERAGE(xbefore,xafter)#(4)
式中xmiss为缺失数据,xbefore为缺失数据的前一个数据,xafter为数据缺失的后一个数据;
1-2-2:当连续丢失的数据大于三帧时采用EM填充,该方法填充通过极大似然估计计算缺失值,能通过自身稳定的迭代过程找到全局最优解;首先设观察数据x=(x(1),x(2),…x(m)),缺失数据z=(z(1),z(2),…z(m)),联合分布p(x,z|θ),条件分布p(z|x,θ),最大迭代次数J;将j从1取值到J开始进行EM算法迭代:先计算联合分布的条件概率期望,公式如式(5)(6)所示:
Qi(z(i))=P(z(i)|x(i),θ(j))#(5)
再极大化L(θ,θj),得到θj+1,公式如式(7)所示:
如果θj+1已收敛,则算法结束,否则继续进行E步迭代;最后输出模型参数θ,根据模型输出的结果进行缺失数据的填充。
3.根据权利要求1所述的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,其特征在于:所述步骤2)中,利用皮尔逊相关系数方法对预处理后的数据进行相关性分析,挖掘气象因素与不同污染物之间的相关性,选取相关性高的气象因素作为模型外界特征输入,皮尔逊相关系数是广泛用于度量两个序列之间相关程度的一种参数,公式如式(8)所示:
根据皮尔逊相关系数分析的结果,按关联性数值进行排序,筛选得到关联性前K的气象因素{weather1,weather2,…,weatherK}。
4.根据权利要求1所述的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,其特征在于:所述步骤3)中,构建基于CNN-LSTM的空气污染物特征提取网络,通过卷积神经网络(CNN)和长短时记忆网络(LSTM)组件学习各污染物历史实测数据逐日和逐小时的变化规律及各污染物之间的影响关系,经过Reshape操作得到各个污染物的时序特征;利用CNN对高关联气象数据进行特征提取,经过Reshape操作得到气象辅助特征,接着,在BP网络中将各污染物时序特征与气象辅助特征拼接作为网络输入,预测得到各个污染物预测输出,具体步骤如下:
3-1:建立基于CNN和LSTM框架的CNN-STM空气污染物特征提取网络,表征各个污染浓度的逐小时变化和逐日变化及其相互影响关系,具体步骤如下:
3-1-1:将步骤1处理后的污染物数据转化为矩阵X(M×M矩阵),Xi代表第i种污染物类型,Xi的列和行分别代表每天和每小时记录的污染物数据,即Xi={xi(h,d)},h∈[1,M];d∈[1,M];
3-1-2:采用CNN模型提取污染物数据的逐日和逐小时时间特征;其关键步骤是卷积层,其中滤波器通过滤波器和输入元素(M×M矩阵)之间的卷积运算在每个输入元素中移动;使用ωf表示滤波器,其中f表示滤波器的索引,f∈{1,2,…,F},过滤器大小为L*L(L为超参),滤波器将在M×M输入元件上滑动卷积,因此卷积层输出的大小为(M-L+1)2,卷积公式如式(9)所示:
3-1-3:卷积之后,进行最大池化操作,以生成所选块的最大值(K×K,K超参数,代表池化过滤器大小),它类似于卷积层,过滤器按K个单元移动不会对输入矩阵的重叠部分进行过滤,公式如式(10)所示:
3-1-4:各污染物数据池化后进行Reshape操作,将矩阵转化为一维向量;为了提取污染物之间的时间互关联性,将Reshape之后的特征输入LSTM,得到污染物之间关系融合的时序特征,LSTM的计算方式如下:
it=σ(Yi·[ht-1,Xt]+ai)#(12)
ft=σ(Yf·[ht-1,Xt]+af)#(13)
Ut=σ(Yo·[ht-1,Xt]+ao)#(14)
O(t)=tanh(Ht)*Ut#(16)
其中代表***的单元状态,it、ft、Ut代表***的输入门、隐藏门、输出门,Ht代表***的当前状态,O(t)代表***的当前时刻的输出,YC、Yi、Yf、Yo为LSTM的参数矩阵,其初始值为范围为[-0.1,0.1]的随机矩阵,aC、ai、af、ao为LSTM的偏置,其初始值为零向量,*代表哈达玛积,it、ft、Ut分别是LSTM的输入门,遗忘门,输出门,3个门通过Sigmoid函数输出0-1的数以控制门的开关程度从而实现对***状态H的输入量的控制,原有状态的保持以及输出量的控制;
3-2:建立基于CNN的气象特征提取网络,表征高关联气象数据逐小时变化和逐日变化规律,具体步骤如下:
3-2-1:将步骤2处理后的天气数据转化为矩阵W(M×M矩阵),Wi代表第i种天气类型,Wi的列和行分别代表每天和每小时记录的天气数据,即Wi={wi(h,d)},h∈[1,M];d∈[1,M];
3-2-2:将多种高关联气象数据堆叠为多通道矩阵,按照3-1-2所描述步骤,通过卷积和池化进行特征提取并经过Reshape操作转化为一维向量,作为气象辅助特征;
3-3:将污染物融合时序特征与气象辅助特征拼接作为BP网络的输入,利用BP网络进行特征融合,融合后输出污染物的预测值;BP网络的连接方式如公式(17)所示:
Ypol(n)=fBP(Xpol(n)||Xweafuse)#(17)
其中,Ypol(n)代表第n个污染物的预测输出,Xpol(n)代表第n个污染物的融合时序特征,Xweafuse代表气象融合特征,fBP代表全连接操作,||代表串联操作;
3-4:建立模型目标函数,具体步骤如下:
3-4-1:建立目标函数1,使得模型预测结果的最大相对误差尽量小;
目标函数1公式如式(18)所示:
3-4-2:建立目标函数2,使得污染物预测准确度尽量高;
要使污染物预测准确度尽量高,使用均方根误差(RMSE)作为评价指标,RMSE的公式如式(19)所示:
5.根据权利要求1所述的一种结合气象特征的CNN-LSTM-BP多模态空气污染物预测方法,其特征在于:所述步骤4中,训练步骤3)中构建的基于CNN-LSTM-BP多模态空气污染物预测网络,并用训练好的模型预测未来空气污染物浓度值,具体步骤如下:
4-1:初始化模型结构,确定网络卷积核维度、初始权重、训练步长、激活函数、隐藏层层数和迭代次数;
4-2:使用预测集来测试模型的预测精度,以RMSE为评价指标,得到模型的预测精度;
4-3:使用相同训练集和测试集训练传统LSTM来进行模型对比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211456742.6A CN115951014A (zh) | 2022-11-21 | 2022-11-21 | 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211456742.6A CN115951014A (zh) | 2022-11-21 | 2022-11-21 | 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115951014A true CN115951014A (zh) | 2023-04-11 |
Family
ID=87296200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211456742.6A Withdrawn CN115951014A (zh) | 2022-11-21 | 2022-11-21 | 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115951014A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116147712A (zh) * | 2023-04-18 | 2023-05-23 | 石家庄铁道大学 | 免时空限制的立体式施工环境监测装置及预测方法 |
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及*** |
CN116227748A (zh) * | 2023-05-08 | 2023-06-06 | 石家庄铁道大学 | 生态环境pm2.5浓度预测模型的训练方法及预测方法 |
CN116522166A (zh) * | 2023-06-28 | 2023-08-01 | 湖南佳蓝检测技术有限公司 | 一种基于大数据的空气污染监测*** |
CN117349777A (zh) * | 2023-12-04 | 2024-01-05 | 安徽新宇环保科技股份有限公司 | 一种水环境在线监测数据真伪智能识别***及方法 |
CN117689278A (zh) * | 2024-02-04 | 2024-03-12 | 新疆盛诚工程建设有限责任公司 | 施工质量智能管理***及方法 |
-
2022
- 2022-11-21 CN CN202211456742.6A patent/CN115951014A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116147712A (zh) * | 2023-04-18 | 2023-05-23 | 石家庄铁道大学 | 免时空限制的立体式施工环境监测装置及预测方法 |
CN116165353A (zh) * | 2023-04-26 | 2023-05-26 | 江西拓荒者科技有限公司 | 一种工业污染物监测数据处理方法及*** |
CN116227748A (zh) * | 2023-05-08 | 2023-06-06 | 石家庄铁道大学 | 生态环境pm2.5浓度预测模型的训练方法及预测方法 |
CN116522166A (zh) * | 2023-06-28 | 2023-08-01 | 湖南佳蓝检测技术有限公司 | 一种基于大数据的空气污染监测*** |
CN116522166B (zh) * | 2023-06-28 | 2023-09-15 | 湖南佳蓝检测技术有限公司 | 一种基于大数据的空气污染监测*** |
CN117349777A (zh) * | 2023-12-04 | 2024-01-05 | 安徽新宇环保科技股份有限公司 | 一种水环境在线监测数据真伪智能识别***及方法 |
CN117349777B (zh) * | 2023-12-04 | 2024-02-23 | 安徽新宇环保科技股份有限公司 | 一种水环境在线监测数据真伪智能识别***及方法 |
CN117689278A (zh) * | 2024-02-04 | 2024-03-12 | 新疆盛诚工程建设有限责任公司 | 施工质量智能管理***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115951014A (zh) | 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法 | |
CN107909206B (zh) | 一种基于深层结构循环神经网络的pm2.5预测方法 | |
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
CN109308522B (zh) | 一种基于循环神经网络的gis故障预测方法 | |
CN111310968A (zh) | 一种基于互信息的lstm神经网络循环水文预报方法 | |
CN108009674A (zh) | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 | |
CN111639787A (zh) | 一种基于图卷积网络的时空数据预测方法 | |
CN114802296A (zh) | 一种基于动态交互图卷积的车辆轨迹预测方法 | |
CN110401978B (zh) | 基于神经网络和粒子滤波多源融合的室内定位方法 | |
CN110533239B (zh) | 一种智慧城市空气品质高精度测量方法 | |
CN110413838A (zh) | 一种无监督视频摘要模型及其建立方法 | |
CN110866631A (zh) | 基于集成的门递归单元神经网络gru来预测大气污染情况的方法 | |
CN112149887A (zh) | 一种基于数据时空特征的pm2.5浓度预测方法 | |
CN115775085B (zh) | 一种基于数字孪生的智慧城市管理方法及*** | |
CN110991776A (zh) | 一种基于gru网络实现水位预测的方法及*** | |
CN114662791A (zh) | 一种基于时空注意力的长时序pm2.5预测方法及*** | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN113988210A (zh) | 结构监测传感网失真数据修复方法、装置及存储介质 | |
CN116976227B (zh) | 一种基于lstm机器学习的风暴增水预报方法及*** | |
CN114330120A (zh) | 一种基于深度神经网络预测24小时pm2.5浓度的方法 | |
CN113642255A (zh) | 基于多尺度卷积循环神经网络的光伏发电功率预测方法 | |
CN117390962A (zh) | 一种基于二阶循环神经网络的空气质量预测方法 | |
CN113761806B (zh) | 一种基于神经网络的大气能见度预测方法 | |
CN115034159A (zh) | 一种海上风电场的功率预测方法、装置、存储介质及*** | |
CN114970743A (zh) | 一种基于多模态深度学习的多源遥感降雨数据融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230411 |