CN114219345A - 一种基于数据挖掘的二次空气质量预报优化方法 - Google Patents

一种基于数据挖掘的二次空气质量预报优化方法 Download PDF

Info

Publication number
CN114219345A
CN114219345A CN202111595667.7A CN202111595667A CN114219345A CN 114219345 A CN114219345 A CN 114219345A CN 202111595667 A CN202111595667 A CN 202111595667A CN 114219345 A CN114219345 A CN 114219345A
Authority
CN
China
Prior art keywords
monitoring point
value
data
time
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111595667.7A
Other languages
English (en)
Other versions
CN114219345B (zh
Inventor
李芳�
徐俊武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202111595667.7A priority Critical patent/CN114219345B/zh
Publication of CN114219345A publication Critical patent/CN114219345A/zh
Application granted granted Critical
Publication of CN114219345B publication Critical patent/CN114219345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)

Abstract

本发明公开了一种基于数据挖掘的二次空气质量预报优化方法,包括以下步骤:S1、对监测点的实测数据中的异常值进行追踪,对追踪到的异常值进行数据修正;S2、根据修正后的实测数据获取监测点的AQI值,根据AQI值进行空气质量等级分类,并获取实测数据中不同天气条件维度对AQI值的影响程度;S3、利用已知的一次预报数据,通过LSTM网络和随机森林建立各污染物浓度的二次预报模型;S4、引入当前监测点的其他相邻监测点的实测数据,对当前监测点的二次预报模型进行优化。本发明提高了气象数据的预报精度。

Description

一种基于数据挖掘的二次空气质量预报优化方法
技术领域
本发明涉及气象预测领域,具体涉及一种基于数据挖掘的二次空气质量预报优化方法。
背景技术
大气污染问题已经引起了全国甚至全球的广泛关注。建立空气质量预报模型对提前获取可能发生的大气污染并采取相应的防控措施显得尤为重要。国家环境预报中心(NCEP)做的数值天气预报就指导着国家天气局(NWS)发布的天气预报。目前,空气质量预报方法基本分为统计预报和数值预报,即根据过去一段时间的空气污染物的排放情况、气象条件、大气扩散情况、地理地貌等因素来预测第二天或者未来几天的空气污染程度,及时发布预警,并提前采取相应的措施。数值预报在国内比较盛行,而国外由最开始的EKMA逐渐发展到现在的第三代模式,这种模式的研究核心是空气质量模式CMAQ。
目前最常用的空气质量预测模型是WRF-CMAQ模型。该模型主要分为 WRF和CMAQ两个部分,WRF是一种中尺度数值天气预报***,多用于大气研究和业务预测,能够为CMAQ提供所需的气象场数据;CMAQ是一种三维欧拉大气化学与传输模拟***,它能够将WRF的气象信息及场域内的污染排放清单,基于化学与物理等原理模拟污染物的变化过程,预测空气中的气体和粒子的浓度,从而得到具体时间点或时间段的预报结果。
由于模拟的气象场以及排放清单的不确定性,以及对包括臭氧在内的污染物生成机理的不完全明晰性,所以WRF-CMAQ预报模型的结果并不理想。
发明内容
本发明的目的在于提供一种基于数据挖掘的二次空气质量预报优化方法,以提高气象预测的准确率。
为解决上述技术问题,本发明提供了一种技术方案:一种基于数据挖掘的二次空气质量预报优化方法,包括以下步骤:
S1、对监测点的实测数据中的异常值进行追踪,对追踪到的异常值进行数据修正;
S2、根据修正后的实测数据获取监测点的AQI值,根据AQI值进行空气质量等级分类,并获取实测数据中不同天气条件维度对AQI值的影响程度;
S3、利用已知的一次预报数据,通过LSTM网络和随机森林建立各污染物浓度的二次预报模型;
S4、引入当前监测点的其他相邻监测点的实测数据,对当前监测点的二次预报模型进行优化。
按上述方案,S1中对实测数据的异常值追踪具体为,利用七点二阶算式进行异常判别,其中原始数据序列为{yk},七点二阶算式输出的数据序列为
Figure BDA0003431043200000024
,七点二阶算式计算公式为:
Figure BDA0003431043200000021
随后计算差值
Figure BDA0003431043200000022
并进行异常值判断,当差值满足下列公式时,即判断为异常值:
Figure BDA0003431043200000023
按上述方案,S1中数据修正具体为:
假设{yk}中yk,yk+1,…yk+m是异常值,则将yk-3,yk-2,yk-1,yk+m+1,yk+m+2,yk+m+3作为输入,采用拉格朗日插值法对异常值进行修正:
Figure BDA0003431043200000031
其中t代表时间,tl-ti与tj-ti表示不同的时间间隔。
按上述方案,S2中AQI值通过AQI公式进行计算,以获取监测点的首要污染物,AQI公式如下:
Figure BDA0003431043200000032
其中,IAQIP为污染物P的空气质量分指数,结果进位取整数;CP为污染物 P的质量浓度值;BPHi、BPLo为与CP相近的污染物浓度限值的高位值与低位值; IAQIHi、IAQILo为与BPHi、BPLo对应的空气质量分指数。
按上述方案,S2中空气质量等级分类分为优、良、轻度污染、中度污染、严重污染;天气条件维度包括风向、风速、温度、湿度、气压;随后采用K- means算法对上述维度进行计算:
A=(a1,a2,...,an),B=(b1,b2,...,bn)
Figure BDA0003431043200000033
其中,A为给定的样本集,B为质心向量,dis(A,B)为样本集A中的点到各质心向量的距离;通过K-means算法得到风向、风速、温度、湿度、气压的中心值,随后通过随机森林算法得到不同天气条件维度对AQI值的影响程度。
按上述方案,S3中二次预报模型建立过程具体为:
对监测点的一次预报数据进行处理:
Figure BDA0003431043200000034
其中,
Figure BDA0003431043200000041
代表t时刻的一次预报数据处理后的预测结果,fi表示第i天对t 时刻的一次预报预测值,wi代表fi对t时刻一次预报的贡献值;
随后,选定t时刻的前7个小时污染物浓度实测数据构建出加权平均变量
Figure BDA0003431043200000042
于是有:
Figure BDA0003431043200000043
其中i=(1,2,…,6),K表示当前的监测点;
Figure BDA0003431043200000044
表示预测第i个污染物的二次预测模型的预报值,
Figure BDA0003431043200000045
表示一次预报的第i个污染物的数据,
Figure BDA0003431043200000046
表示当前预测第i种污染物前7小时t-7到t-1时刻做加权平均的结果,其权重为[0.4,0.2,0.1,0.1,0.08,0.06,0.06];
随后用LSTM网络和随机森林对θi,i=1,2,...,7的权重值进行训练。
按上述方案,LSTM网络包括输入层、隐藏层和输出层,LSTM网络在二次预测模型的训练中通过反向传播机理对隐藏层中的权重进行迭代训练,其迭代过程为:
Figure BDA0003431043200000047
LSTM网络表达式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003431043200000048
Figure BDA0003431043200000049
其中,zt表示更新门,rt为重置门,ht为当前更新状态信息;Wx、Wh、Wy分别表示输出层、隐藏层和输出层的权值;bh、by分别表示隐藏层和输出层的偏置矩阵;xt、ht、yt分别表示输入值、隐藏值和输出值;
Figure BDA00034310432000000410
Figure BDA00034310432000000411
分别表示激活函数。
按上述方案,随机森林的评价标准为拟合系数计算公式:
Figure BDA0003431043200000051
其中yi为实际序列,
Figure BDA0003431043200000052
为预测序列,
Figure BDA0003431043200000053
为实际序列的平均值;R2值越大,表示模型拟合的效果越好。
按上述方案,S4具体过程为:
首先,将引入的相邻监测点的缺失的数据采用时间序列平均代替;随后将相邻的监测点的一次预报数据和实测数据进行融合,并采用随机森林对融合数据进行权重值分配;
判断t时刻监测点Ai的风向和风速是否对监测点A有影响,其中监测点A 为二次预测模型对应的监测点,监测点Ai为监测点A的相邻监测点:
Figure BDA0003431043200000054
其中,
Figure BDA00034310432000000511
为影响结果,其取值为1时表示有影响,取值为0时表示无影响;Dis(A,Ai)表示监测点A和监测点Ai之间的距离,ω表示监测点A的风速, Az(A,Ai)表示监测点A和监测点Ai之间的夹角,Ft表示监测点A的风向;
采用最优插值法对监测点A的预测值进行优化:
Figure BDA0003431043200000055
其中,
Figure BDA0003431043200000056
表示当前t时刻二次预测模型对监测点A的预测值,
Figure BDA0003431043200000057
表示t时刻一次预测模型对监测点A的预测值,
Figure BDA0003431043200000058
表示t时刻在相邻的监测点Ak的实测数据值,
Figure BDA0003431043200000059
表示t时刻在监测点Ak的一次预测模型的预测值,
Figure BDA00034310432000000510
在t时刻检查站Ak的权重函数,权重函数的表达式为:
Figure BDA0003431043200000061
其中,
Figure BDA0003431043200000062
表示当前t时刻监测点Ak与其他相邻的监测点的协方差向量;
Figure BDA0003431043200000063
Bt为t时刻在监测点A、A1、A2、A3的一次预测模型的预测值的误差协方差矩阵,Ot是上述各监测点的实测误差的协方差矩阵;则
Figure BDA0003431043200000064
表示t时刻一次预测模型的预测值的加权平均,其中 (Bt+Ot)-1为权重,即t时刻各个监测点之间的误差协方差矩阵和一次预测模型预测误差的协方差矩阵之和的逆矩阵,该权重同时也判断监测点Ai对监测点 A的影响
Figure BDA0003431043200000067
通过对
Figure BDA0003431043200000065
中的
Figure BDA0003431043200000066
进行插值,从而提高二次预测模型预测值的精度。
本发明的有益效果是:通过结合基于尺度天气模型和空气质量数值预报模型的一次预报数据以及空气质量实时监测数据,采取数据挖掘技术和网络模型提高了模型的预测精度。
附图说明
图1为本发明一实施例的二次模型优化的WRF-CMAQ空气质量预报流程图;
图2为本发明一实施例的PM10监测浓度实测数据预处理结果图;
图3为本发明一实施例的LSTM模型结构图;
图4为本发明一实施例的拟合部分SO2数据结果图;
图5为本发明一实施例的监测站的坐标位置图;
图6为本发明一实施例的气候分类流程图;
图7为本发明一实施例的二次预测流程图;
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本实施例中,监测站位置信息参见图5,监测站点所采集到的各个监测站点的SO2、NO2、PM10、PM2.5、O3、CO、温度、湿度、气压、风速、风向作为输入模型的实测数据。
参见图1、图7,一种基于数据挖掘的二次空气质量预报优化方法,包括以下步骤:
S1、对监测点的实测数据中的异常值进行追踪,对追踪到的异常值进行数据修正;
S2、根据修正后的实测数据获取监测点的AQI值,根据AQI值进行空气质量等级分类,并获取实测数据中不同天气条件维度对AQI值的影响程度;
S3、利用已知的一次预报数据,通过LSTM网络和随机森林建立各污染物浓度的二次预报模型;
S4、引入当前监测点的其他相邻监测点的实测数据,对当前监测点的二次预报模型进行优化。
进一步地,S1中对实测数据的异常值追踪具体为,利用七点二阶算式进行异常判别,其中原始数据序列为{yk},七点二阶算式输出的数据序列为
Figure BDA0003431043200000081
七点二阶算式计算公式为:
Figure BDA0003431043200000082
随后计算差值
Figure BDA0003431043200000083
并进行异常值判断,当差值满足下列公式时,即判断为异常值:
Figure BDA0003431043200000084
进一步地,参见图2,对监测站A的PM10监测浓度实测数据进行数据修正,S1中数据修正具体为:
假设{yk}中yk,yk+1,…yk+m是异常值,则将yk-3,yk-2,yk-1,yk+m+1,yk+m+2,yk+m+3作为输入,采用拉格朗日插值法对异常值进行修正:
Figure BDA0003431043200000085
其中t代表时间,tl-ti与tj-ti表示不同的时间间隔。
进一步地,S2中AQI值通过AQI公式进行计算,以获取监测点的首要污染物,结果参见表1,表1为计算得到监测点A从2020年8月25日到8月 28日每天实测的AQI和首要污染物。AQI公式如下:
Figure BDA0003431043200000086
其中,IAQIP为污染物P的空气质量分指数,结果进位取整数;CP为污染物 P的质量浓度值;BPHi、BPLo为与CP相近的污染物浓度限值的高位值与低位值; IAQIHi、IAQILo为与BPHi、BPLo对应的空气质量分指数。
进一步地,参见图6、表2,S2中空气质量等级分类分为优、良、轻度污染、中度污染、严重污染;天气条件维度包括风向、风速、温度、湿度、气压;随后采用K-means算法对上述维度进行计算:
A=(a1,a2,...,an),B=(b1,b2,...,bn)
Figure BDA0003431043200000091
其中,A为给定的样本集,B为质心向量,dis(A,B)为样本集A中的点到各质心向量的距离;通过K-means算法得到风向、风速、温度、湿度、气压的中心值,参见表3;随后通过随机森林算法得到不同天气条件维度对AQI值的影响程度,参见表4。
进一步地,S3中二次预报模型建立过程具体为:
对监测点的一次预报数据进行处理:
Figure BDA0003431043200000092
其中,
Figure BDA0003431043200000093
代表t时刻的一次预报数据处理后的预测结果,fi表示第i天对t 时刻的一次预报预测值,wi代表fi对t时刻一次预报的贡献值;
随后,选定t时刻的前7个小时污染物浓度实测数据构建出加权平均变量
Figure BDA0003431043200000094
于是有:
Figure BDA0003431043200000095
其中i=(1,2,…,6),K表示当前的监测点;
Figure BDA0003431043200000096
表示预测第i个污染物的二次预测模型的预报值,
Figure BDA0003431043200000097
表示一次预报的第i个污染物的数据,
Figure BDA0003431043200000098
表示当前预测第i种污染物前7小时t-7到t-1时刻做加权平均的结果,其权重为[0.4,0.2,0.1,0.1,0.08,0.06,0.06];
随后用LSTM网络和随机森林对θi,i=1,2,...,7的权重值进行训练。
进一步地,参见图3,LSTM网络包括输入层、隐藏层和输出层,LSTM 网络在二次预测模型的训练中通过反向传播机理对隐藏层中的权重进行迭代训练,其迭代过程为:
Figure BDA0003431043200000101
LSTM网络表达式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003431043200000102
Figure BDA0003431043200000103
其中,zt表示更新门,rt为重置门,ht为当前更新状态信息;Wx、Wh、Wy分别表示输出层、隐藏层和输出层的权值;bh、by分别表示隐藏层和输出层的偏置矩阵;xt、ht、yt分别表示输入值、隐藏值和输出值;
Figure BDA0003431043200000104
Figure BDA0003431043200000105
分别表示激活函数。
进一步地,随机森林的评价标准为拟合系数计算公式:
Figure BDA0003431043200000106
其中yi为实际序列,
Figure BDA0003431043200000107
为预测序列,
Figure BDA0003431043200000108
为实际序列的平均值;R2值越大,表示模型拟合的效果越好。参见图4,利用上述拟合系数计算公式拟合部分 SO2数据。
进一步地,S4具体过程为:
首先,将引入的相邻监测点的缺失的数据采用时间序列平均代替;随后将相邻的监测点的一次预报数据和实测数据进行融合,并采用随机森林对融合数据进行权重值分配;
判断t时刻监测点Ai的风向和风速是否对监测点A有影响,其中监测点A 为二次预测模型对应的监测点,监测点Ai为监测点A的相邻监测点,其中监测点A与监测点Ai的位置关系参见图5:
Figure BDA0003431043200000111
其中,
Figure BDA0003431043200000112
为影响结果,其取值为1时表示有影响,取值为0时表示无影响;Dis(A,Ai)表示监测点A和监测点Ai之间的距离,ω表示监测点A的风速, Az(A,Ai)表示监测点A和监测点Ai之间的夹角,Ft表示监测点A的风向;
采用最优插值法对监测点A的预测值进行优化:
Figure BDA0003431043200000113
其中,
Figure BDA0003431043200000114
表示当前t时刻二次预测模型对监测点A的预测值,
Figure BDA0003431043200000115
表示t时刻一次预测模型对监测点A的预测值,
Figure BDA0003431043200000116
表示t时刻在相邻的监测点Ak的实测数据值,
Figure BDA0003431043200000117
表示t时刻在监测点Ak的一次预测模型的预测值,
Figure BDA0003431043200000118
在t时刻检查站Ak的权重函数,权重函数的表达式为:
Figure BDA0003431043200000119
其中,
Figure BDA00034310432000001110
表示当前t时刻监测点Ak与其他相邻的监测点的协方差向量;
Figure BDA00034310432000001111
Bt为t时刻在监测点A、A1、A2、A3的一次预测模型的预测值的误差协方差矩阵,Ot是上述各监测点的实测误差的协方差矩阵;则
Figure BDA0003431043200000121
表示t时刻一次预测模型的预测值的加权平均,其中 (Bt+Ot)-1为权重,即t时刻各个监测点之间的误差协方差矩阵和一次预测模型预测误差的协方差矩阵之和的逆矩阵,该权重同时也判断监测点Ai对监测点 A的影响
Figure BDA0003431043200000122
通过对
Figure BDA0003431043200000123
中的
Figure BDA0003431043200000124
进行插值,从而提高二次预测模型预测值的精度。
对监测点A、B、C的三天预测结果参见表5~表7。
表1为本发明一实施例的首要污染物数据;
Figure DEST_PATH_HDA0003431043210000033
Figure DEST_PATH_HDA0003431043210000041
表2为本发明一实施例的空气质量等级分类;
Figure DEST_PATH_HDA0003431043210000042
表3为本发明一实施例的气候条件聚类;
Figure DEST_PATH_HDA0003431043210000043
表4为本发明一实施例的气候条件对AQI的贡献值;
Figure DEST_PATH_HDA0003431043210000044
表5~表7分别为本发明一实施例的监测点A、B、C的三天预测结果。
Figure DEST_PATH_HDA0003431043210000045
Figure DEST_PATH_HDA0003431043210000046
Figure DEST_PATH_HDA0003431043210000051
Figure DEST_PATH_HDA0003431043210000052
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于数据挖掘的二次空气质量预报优化方法,其特征在于:包括以下步骤:
S1、对监测点的实测数据中的异常值进行追踪,对追踪到的异常值进行数据修正;
S2、根据修正后的实测数据获取监测点的AQI值,根据AQI值进行空气质量等级分类,并获取实测数据中不同天气条件维度对AQI值的影响程度;
S3、利用已知的一次预报数据,通过LSTM网络和随机森林建立各污染物浓度的二次预报模型;
S4、引入当前监测点的其他相邻监测点的实测数据,对当前监测点的二次预报模型进行优化。
2.根据权利要求1所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S1中对实测数据的异常值追踪具体为,利用七点二阶算式进行异常判别,其中原始数据序列为{yk},七点二阶算式输出的数据序列为
Figure FDA0003431043190000014
七点二阶算式计算公式为:
Figure FDA0003431043190000011
随后计算差值
Figure FDA0003431043190000012
并进行异常值判断,当差值满足下列公式时,即判断为异常值:
Figure FDA0003431043190000013
3.根据权利要求2所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S1中数据修正具体为:
假设{yk}中yk,yk+1,…yk+m是异常值,则将yk-3,yk-2,yk-1,yk+m+1,yk+m+2,yk+m+3作为输入,采用拉格朗日插值法对异常值进行修正:
Figure FDA0003431043190000021
其中t代表时间,tl-ti与tj-ti表示不同的时间间隔。
4.根据权利要求1所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S2中AQI值通过AQI公式进行计算,以获取监测点的首要污染物,AQI公式如下:
Figure FDA0003431043190000022
其中,IAQIP为污染物P的空气质量分指数,结果进位取整数;CP为污染物P的质量浓度值;BPHi、BPLo为与CP相近的污染物浓度限值的高位值与低位值;IAQIHi、IAQILo为与BPHi、BPLo对应的空气质量分指数。
5.根据权利要求1所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S2中空气质量等级分类分为优、良、轻度污染、中度污染、严重污染;天气条件维度包括风向、风速、温度、湿度、气压;随后采用K-means算法对上述维度进行计算:
A=(a1,a2,...,an),B=(b1,b2,...,bn)
Figure FDA0003431043190000023
其中,A为给定的样本集,B为质心向量,dis(A,B)为样本集A中的点到各质心向量的距离;通过K-means算法得到风向、风速、温度、湿度、气压的中心值,随后通过随机森林算法得到不同天气条件维度对AQI值的影响程度。
6.根据权利要求1所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S3中二次预报模型建立过程具体为:
对监测点的一次预报数据进行处理:
Figure FDA0003431043190000031
其中,
Figure FDA0003431043190000038
代表t时刻的一次预报数据处理后的预测结果,fi表示第i天对t时刻的一次预报预测值,wi代表fi对t时刻一次预报的贡献值;
随后,选定t时刻的前7个小时污染物浓度实测数据构建出加权平均变量
Figure FDA0003431043190000032
于是有:
Figure FDA0003431043190000033
其中i=(1,2,…,6),K表示当前的监测点;
Figure FDA0003431043190000034
表示预测第i个污染物的二次预测模型的预报值,
Figure FDA0003431043190000035
表示一次预报的第i个污染物的数据,
Figure FDA0003431043190000036
表示当前预测第i种污染物前7小时t-7到t-1时刻做加权平均的结果,其权重为[0.4,0.2,0.1,0.1,0.08,0.06,0.06];
随后用LSTM网络和随机森林对θi,i=1,2,...,7的权重值进行训练。
7.根据权利要求6所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:LSTM网络包括输入层、隐藏层和输出层,LSTM网络在二次预测模型的训练中通过反向传播机理对隐藏层中的权重进行迭代训练,其迭代过程为:
Figure FDA0003431043190000037
LSTM网络表达式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003431043190000041
Figure FDA0003431043190000042
其中,zt表示更新门,rt为重置门,ht为当前更新状态信息;Wx、Wh、Wy分别表示输出层、隐藏层和输出层的权值;bh、by分别表示隐藏层和输出层的偏置矩阵;xt、ht、yt分别表示输入值、隐藏值和输出值;
Figure FDA0003431043190000043
Figure FDA0003431043190000044
分别表示激活函数。
8.根据权利要求6所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:随机森林的评价标准为拟合系数计算公式:
Figure FDA0003431043190000045
其中yi为实际序列,
Figure FDA0003431043190000046
为预测序列,
Figure FDA0003431043190000047
为实际序列的平均值;R2值越大,表示模型拟合的效果越好。
9.根据权利要求1所述的基于数据挖掘的二次空气质量预报优化方法,其特征在于:S4具体过程为:
首先,将引入的相邻监测点的缺失的数据采用时间序列平均代替;随后将相邻的监测点的一次预报数据和实测数据进行融合,并采用随机森林对融合数据进行权重值分配;
判断t时刻监测点Ai的风向和风速是否对监测点A有影响,其中监测点A为二次预测模型对应的监测点,监测点Ai为监测点A的相邻监测点:
Figure FDA0003431043190000048
其中,
Figure FDA0003431043190000051
为影响结果,其取值为1时表示有影响,取值为0时表示无影响;Dis(A,Ai)表示监测点A和监测点Ai之间的距离,ω表示监测点A的风速,Az(A,Ai)表示监测点A和监测点Ai之间的夹角,Ft表示监测点A的风向;
采用最优插值法对监测点A的预测值进行优化:
Figure FDA0003431043190000052
其中,
Figure FDA0003431043190000053
表示当前t时刻二次预测模型对监测点A的预测值,
Figure FDA0003431043190000054
表示t时刻一次预测模型对监测点A的预测值,
Figure FDA0003431043190000055
表示t时刻在相邻的监测点Ak的实测数据值,
Figure FDA0003431043190000056
表示t时刻在监测点Ak的一次预测模型的预测值,WAkt在t时刻检查站Ak的权重函数,权重函数的表达式为:
Figure FDA0003431043190000057
其中,
Figure FDA0003431043190000058
表示当前t时刻监测点Ak与其他相邻的监测点的协方差向量;
Figure FDA0003431043190000059
Bt为t时刻在监测点A、A1、A2、A3的一次预测模型的预测值的误差协方差矩阵,Ot是上述各监测点的实测误差的协方差矩阵;则
Figure FDA00034310431900000513
表示t时刻一次预测模型的预测值的加权平均,其中(Bt+Ot)-1为权重,即t时刻各个监测点之间的误差协方差矩阵和一次预测模型预测误差的协方差矩阵之和的逆矩阵,该权重同时也判断监测点Ai对监测点A的影响
Figure FDA00034310431900000510
通过对
Figure FDA00034310431900000511
中的
Figure FDA00034310431900000512
进行插值,从而提高二次预测模型预测值的精度。
CN202111595667.7A 2021-12-24 2021-12-24 一种基于数据挖掘的二次空气质量预报优化方法 Active CN114219345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111595667.7A CN114219345B (zh) 2021-12-24 2021-12-24 一种基于数据挖掘的二次空气质量预报优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111595667.7A CN114219345B (zh) 2021-12-24 2021-12-24 一种基于数据挖掘的二次空气质量预报优化方法

Publications (2)

Publication Number Publication Date
CN114219345A true CN114219345A (zh) 2022-03-22
CN114219345B CN114219345B (zh) 2024-07-23

Family

ID=80705945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111595667.7A Active CN114219345B (zh) 2021-12-24 2021-12-24 一种基于数据挖掘的二次空气质量预报优化方法

Country Status (1)

Country Link
CN (1) CN114219345B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676822A (zh) * 2022-03-25 2022-06-28 东南大学 一种基于深度学习的多属性融合空气质量预报方法
CN114912343A (zh) * 2022-03-30 2022-08-16 南通大学 基于lstm神经网络的空气质量二次预报模型构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197736A (zh) * 2017-12-29 2018-06-22 北京工业大学 一种基于变分自编码器和极限学习机的空气质量预测方法
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN110363347A (zh) * 2019-07-12 2019-10-22 江苏天长环保科技有限公司 基于决策树索引的神经网络预测空气质量的方法
CN112884243A (zh) * 2021-03-16 2021-06-01 杭州职业技术学院 一种基于深度学习和贝叶斯模型的空气质量分析预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN108197736A (zh) * 2017-12-29 2018-06-22 北京工业大学 一种基于变分自编码器和极限学习机的空气质量预测方法
CN110363347A (zh) * 2019-07-12 2019-10-22 江苏天长环保科技有限公司 基于决策树索引的神经网络预测空气质量的方法
CN112884243A (zh) * 2021-03-16 2021-06-01 杭州职业技术学院 一种基于深度学习和贝叶斯模型的空气质量分析预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林开春;邵峰晶;: "基于随机森林和神经网络的空气质量预测研究", 青岛大学学报(工程技术版), no. 02, 15 May 2018 (2018-05-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676822A (zh) * 2022-03-25 2022-06-28 东南大学 一种基于深度学习的多属性融合空气质量预报方法
CN114676822B (zh) * 2022-03-25 2024-04-23 东南大学 一种基于深度学习的多属性融合空气质量预报方法
CN114912343A (zh) * 2022-03-30 2022-08-16 南通大学 基于lstm神经网络的空气质量二次预报模型构建方法

Also Published As

Publication number Publication date
CN114219345B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
Zhao et al. A geographically weighted regression model augmented by Geodetector analysis and principal component analysis for the spatial distribution of PM2. 5
Chang et al. An LSTM-based aggregated model for air pollution forecasting
CN108426812B (zh) 一种基于记忆神经网络的pm2.5浓度值预测方法
CN112308292B (zh) 一种火灾风险等级分布图的绘制方法
CN111260111B (zh) 基于气象大数据的径流预报改进方法
WO2020043027A1 (zh) 一种大气污染预测中对区域边界优化的方法
CN114219345B (zh) 一种基于数据挖掘的二次空气质量预报优化方法
Ren et al. Improving monthly streamflow prediction in alpine regions: integrating HBV model with Bayesian neural network
US20110313958A1 (en) System and method for empirical ensemble-based virtual sensing of particulates
CN113348471B (zh) 一种大气污染预测中对区域边界优化的方法
CN105488316A (zh) 用于预测空气质量的***和方法
CN114254802B (zh) 气候变化驱动下植被覆盖时空变化的预测方法
CN113011455B (zh) 一种空气质量预测svm模型构建方法
Dzupire et al. A Poisson‐Gamma Model for Zero Inflated Rainfall Data
CN107133686A (zh) 基于时空数据模型的城市级pm2.5浓度预测方法
CN105488317A (zh) 用于预测空气质量的***和方法
CN113108918B (zh) 一种极轨气象卫星热红外遥感数据反演气温方法
CN110097205A (zh) 一种建筑负荷预测用气象预报数据预处理方法
CN116805439A (zh) 一种基于人工智能和大气环流机制的干旱预报方法及***
CN113468799A (zh) 一种静止气象卫星观测中获取近地面pm2.5浓度的方法及***
CN114822709A (zh) 大气污染多粒度精准成因分析方法及装置
CN104750953A (zh) 中小尺度气载物质大气输运集合扩散模拟方法
Zhao et al. An objective prediction model for typhoon rainstorm using particle swarm optimization: neural network ensemble
Campos et al. Unorganized machines and linear multivariate regression model applied to atmospheric pollutant forecasting
CN111445076B (zh) 一种基于lstm的空气污染分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant