CN111340288B - 一种顾及时空关联性的城市空气质量时序预测方法 - Google Patents
一种顾及时空关联性的城市空气质量时序预测方法 Download PDFInfo
- Publication number
- CN111340288B CN111340288B CN202010114790.1A CN202010114790A CN111340288B CN 111340288 B CN111340288 B CN 111340288B CN 202010114790 A CN202010114790 A CN 202010114790A CN 111340288 B CN111340288 B CN 111340288B
- Authority
- CN
- China
- Prior art keywords
- time
- correlation
- data
- space
- air quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 238000007637 random forest analysis Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 17
- 230000008878 coupling Effects 0.000 claims abstract description 9
- 238000010168 coupling process Methods 0.000 claims abstract description 9
- 238000005859 coupling reaction Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003916 acid precipitation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005183 environmental health Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种顾及时空关联性的城市空气质量时序预测方法,该方法引入了奇异谱分析进行PM2.5监测数据和气象特征数据的时间序列预测,设计了时空相关立方体以自适应地选择前K个重要的空间邻域站点特征,将时间序列预测结果与前K个重要的空间邻域特征进行叠加构建样本特征集,最后利用随机森林算法完成不同时间尺度下的最终结果的拟合。通过本发明所提供的耦合模型,可以有效地顾及不同空间站点之间的时空关联性,从而提高城市空间环境中单个站点在不同时间尺度下的时序预测效果和稳定程度,可以为城市大气管理决策提供参考依据。
Description
技术领域
本发明涉及大气环境管理与监测领域,更具体的讲,涉及一种顾及时空关联性的城市空气质量时序预测方法,其是一种能够在顾及时空关联性基础之上,进行不同时间尺度未来时段城市空气质量的时序预测方法。
背景技术
空气污染是项重要的环境健康问题,雾霾、粉尘、可吸入细颗粒物等所带来的空气质量污染无时无刻不在危害着城市居民的健康生活环境,尤其对于老人、孩子、孕妇及其他敏感人群的影响更甚。除此之外,空气污染还会带来许多更为严重的环境问题,如酸雨、气候变化、水资源污染、生态***恶化等。因此,为了更好地满足辅助政府职能部门决策和指导公众生活服务的需要,迫切的需要提出能够在顾及时空相关性基础上的城市空气质量未来时段连续预测方法。传统空气质量预测方法中最为常用的便是经验推论方法、参数统计模型等。其中,经验推论方法是指从气象特征或空气质量历史记录数据中总结经验、发现趋势,从而基于主观导向性和计算结果对未来时段空气质量变化趋势作出预测和判断。该类型方法主要具有以下特点:优点是计算速度快、使用简单、在静态环境下适用性较强,但总体预测精度低,当空气质量发生较大波动时很难做出反应。为了进一步提升预测精度,更加客观有效的参数统计模型得到了广泛的应用,例如分类、聚类、回归、滤波等方法以及基于这些模型之上的集成统计方法。该类方法模型结构较为简单,可以在局部实验地区取得较高的拟合精度,但其需要大量的观测数据用于训练。而且对于不同影响因子之间的综合作用和传输过程,即使参数统计模型具备较高的计算效率并具备发现数据之间潜在联系的能力,却仍然很难完全模拟空气质量的非线性变化过程。同时,深度学习技术也为空气污染物浓度预测提出了许多新的研究方法,典型的例子包括反向传播神经网络(BPNN)、径向基函数神经网络(RBFNN)、循环神经网络等(RNN)。其中,RNN可以动态捕获不同长度输入序列所包含的时序信息,但受限于梯度消失问题无法有效学习过长的输入序列。而在RNN基础之上提出的长短时记忆神经网络(LSTM)可以有效弥补这一缺点,其在时序预测领域得到了广泛的应用。但尽管深度学习具有极佳的数据挖掘性能,但其模型结构及调参过程过于复杂,需要大量的观测数据用于训练,也导致了计算成本的复杂和高昂。
发明内容
本发明要解决的技术问题在于针对现有方法中的不足,提供一种顾及时空关联性的城市空气质量时序预测方法,其能够充分顾及不同预测位置之间的时空相关性,并对城市空间范围内特定位置的空气质量进行未来时段的连续预测。
本发明是这样实现的:本发明提供了一种顾及时空关联性的城市空气质量时序预测方法,包括如下步骤:
S1)采集城市空间范围内所设立的空气质量监测站点的历史时段记录数据,将采集的历史时段记录数据进行数据匹配形成多特征变量在不同空气质量站点的时序记录数据;
S2)对步骤S1)采集的时序记录数据进行数据预处理,最终形成时序完整的气象数据;
S3)将待预测站点历史时刻的气象数据输入到奇异谱分析模型中,得到待预测站点预测数据;利用构建的时空相关立方体来提取在待预测时刻和待预测站点相关性最强的前K个站点的预测数据作为辅助站点数据;
S4)将通过时空相关立方体提取到的辅助站点数据和利用奇异谱分析模型得到的待预测站点预测数据进行耦合,共同组成输入特征集,将输入特征集放入随机森林模型之中,由随机森林模型预测得到待预测站点在待预测时刻的最终的预测结果。
进一步地,步骤S1)中的数据匹配是指将由空气质量监测站点所采集到的数据按照采集时间、采集站点、所属类别进行匹配,规范数据,得到的数据为各站点在不同时刻的气象监测数据。
进一步地,采集的城市空间范围内所设立的空气质量监测站点的历史时段记录数据包括PM2.5监测数据和气象特征数据。
进一步地,数据预处理包括异常值筛选、剔除、插值以及缺失值填补。
进一步地,插值方法选择IDW反距离权重插值,通过插值获取在对应时刻空气质量监测站点位置的相应气象信息。
进一步地,缺失值填补是利用随机森林算法对同一时刻的气象特征和PM2.5指数之间的相关性进行建模,根据气象特征同PM2.5数值之间的相关性模型,实现气象特征和PM2.5值之间的相互推测。进行缺失值填补时是根据气象特征和PM值之间的相关性来进行预测的,因为缺失时刻是只有气象特征(温度、湿度、压强、风速、风向等),而缺失了PM值,所以本发明会对气象特征—PM2.5的相关性进行建模,利用随机森林来获取两者之间的关系,最终利用缺失时刻的气象特征来推测该时刻的PM值。
进一步地,根据历史数据构建时空相关立方体,时空相关立方体是站点同站点之间在不同时刻的相关性强度,通过时空相关立方体自适应的提取出待预测时刻同该位置站点具有最强相关性的前K个重要的邻域站点;
时空相关立方体的具体步骤为:
首先利用历史数据构建设定时间段内不同时刻、不同站点之间的相关矩阵,矩阵每个值代表了站点两两之间的相关性强度;
其相关性强度计算公式为:
其中,Ks代表了不同站点在某一时刻的相关性强弱,Cov()代表着变量间的协方差,S(i,t)和S(j,t)代表了i站点和j站点在t时刻所对应的空气质量记录,代表了对应变量的标准差;
时空相关立方体通过自相关系数来衡量不同时刻不同空间站点之间的相关性强弱,从而得到设定时间段中所有时刻所有空气质量监测站点之间的相关性大小并以此来构建时空相关立方体;
通过时空相关立方体在实际预测中根据所预测时段的所属时刻及位置,来确定需要引入的辅助站点优先级,假定现在需要预测某一站点在未来该时刻的空气质量指数,可从时空相关立方体当中提取出该时刻所对应的站点之间的相关性;
根据邻域站点的相关性强弱对邻域站点进行排序,按照其重要性次序开始逐一添加进入随机森林算法进行训练,按照模型精度来选择最佳的特征个数K。
模型精度即将预测值和真实值进行对比,对比指标采用R2拟合优度。
相较于现有技术,本发明所设计的空气质量预测方法的有益效果是:
(1)本发明设计了基于相关性强度的时空相关立方体,可以充分顾及不同空气质量监测站点之间的时空相关性;
(2)同时本发明设计的奇异谱分析-随机森林耦合模型可以强化预测能力,能够在兼顾时空相关性和空间异质性的基础上,有效的提高空气质量预测模型的精度和稳定性;奇异谱算法是根据历史数据来预测未来时段的空气质量,时空相关立方体是对每个站点的邻域站点的空气质量预测结果进行一个筛选,选择后会作为辅助变量来提升该站点的预测精准度。
(3)本发明可以为城市特定位置即不同的空气质量监测站点的多时间尺度空气质量未来时段连续预测提供较为实用可靠的科学方法,
附图说明
图1为本发明的一种顾及时空关联性的城市空气质量时序预测方法的整体方法流程图;
图2为本发明的一种顾及时空关联性的城市空气质量时序预测方法完成数据处理后得到的多维气象特征;
图3为本发明的一种顾及时空关联性的城市空气质量时序预测方法中的奇异谱分析模型应用;
图4为本发明的一种顾及时空关联性的城市空气质量时序预测方法所设计的时空相关立方体,用于邻域重要特征的选择和添加;
图5为本发明的一种顾及时空关联性的城市空气质量时序预测方法在示例实验中的不同时间尺度的预测效果。
具体实施方式
下面将结合附图及实施例对本发明进行进一步说明,附图仅用于示例性说明,不能理解为对本专利的限制。
本发明提出了如图1所示的方法框架,该框架引入了时空相关立方体来提取时空信息,设计了奇异谱分析和随机森林耦合模型来准确拟合未来阶段空气质量。其具体的实施方式是:
步骤1:构建空气质量特征数据集,以某城市为例,采集了该城市2018年前建成的35个城市空气质量监测站点所记录的2017年1月1日至2018年1月1日的PM2.5监测数据和气象特征数据(包括温度、湿度、风速、压强、风向等特征),将数据按照其空间站点位置及采集时间进行匹配,获得同一坐标、不同时间戳的不同特征的时间序列数据;
进一步的,所述步骤1包括以下步骤:
步骤1.1:采集城市空间范围内所设立的35个空气质量监测站点的2017年1月1日至2018年1月1日历史时段记录数据的PM2.5监测数据和气象特征数据(包含温度、风速、压强、湿度、风向等);
步骤1.2:将所采集的时序数据按照其类别、空间站点位置及采集时间进行数据匹配,形成多特征变量在不同空气质量站点的时序记录数据。
此处的数据匹配是指将由空气质量监测站点所采集到的数据按照采集时间、采集站点、所属类别(PM2.5、温度、湿度、压强、风速等),即数据规范化,处理之后的数据应为各站点(1-35个站点)在不同时刻(2017年1月1日至2018年1月1日每小时的气象监测数据)。
步骤2:数据清洗及预处理,对相关实验数据(PM2.5监测数据和气象特征数据)进行数据预处理,包括异常值筛选、剔除、空间插值、缺失值填补等步骤,最终形成时序完整的多个空气质量监测站点的历史记录数据;
对匹配后的时序记录数据进行数据预处理,因采集到的时序数据存在部分时刻的缺失,需要属于预处理来填补缺失时刻的空气质量。
进一步的,所述步骤2包括以下步骤:
步骤2.1:由于在实施例城市空间范围内,城市空气质量监测站点和气象特征监测站点的位置并不重合,因此有必要对气象特征进行插值以准确获取在对应时刻空气质量监测站点位置的相应气象信息,插值方法选择为IDW反距离权重插值,通过插值可获取对应信息;
步骤2.2:对于长时序的气象特征监测数据,常会由于不可控因素造成记录缺失,而时序预测算法要求时序记录的完整性,因此有必要进行缺失值填充,不同于以往研究中采用的均值平滑方法,本发明利用随机森林算法对同一时刻的气象特征和PM2.5指数之间的相关性进行建模,从而可以根据缺失时刻的气象特征数据来推测PM2.5的缺失值,如图2所示即为进行插值和缺失值填补之后得到的多变量特征信息;
步骤3:时序预测,根据历史数据来预测未来时段的空气质量,接下来将通过数据预处理所形成的多维时间序列放入奇异谱分析模型当中,奇异谱分析模型是一种时序预测算法,可以渐进的对时序数据进行预测,通过该模型可以得到未来时段下的多维特征预测值,具体原理为对时间序列历史数据进行滑动窗口扫描,构建出历史轨迹矩阵,对轨迹矩阵进行分解、重构,提取出代表时间序列不同成分的特征,如长期趋势信号、周期性信号、噪声信号等,通过对这些重要特征分析并进一步进行预测,可以把这个过程简化看作多元回归,历史数据特征作为输入X特征,未来预测值就是输出Y变量。
进一步的,奇异谱分析的详细算法过程如图3所示,具体步骤为:
步骤3.1:假定待预测时序特征共有k个,每类特征共包含n个时间记录,组成了大小为n*k的特征矩阵;
步骤3.2:利用大小为l的时间窗口对时序数据进行遍历,形成多个长度为l的特征向量,组成特征矩阵Xlw,将每类特征的矩阵相嵌,叠加形成l*w*k维的特征立方体;相嵌是指将不同类别特征的特征矩阵Xlw进行叠加,组成l*w*k维特征立方体,k维指不同维度的特征,如温度、湿度、风速、压强等等。
步骤3.3:计算每一类时序特征的特征矩阵Xlw的特征值和特征向量,即计算特征立方体的每一维剖面,并将特征值按照其重要性大小从大到小进行排序;排序的目的是获取每个维度(代表不同类别的特征)特征的最重要特征因子,是奇异谱分析算法原理的核心部分,目的是越重要的特征值设定的权重大一些,不重要的权重小一点,达到排除干扰,提升准确度的目的。
步骤3.4:重构轨迹矩阵,将每一类时序特征的每一顺位特征值所对应的特征向量进行叠加,并对轨迹矩阵进行重构,形成新的特征矩阵。
步骤3.5:通过奇异谱分析将时间序列分解为周期、非周期及随机因子等特征向量,通过对这些不同特征进行组合及计算,可以完成时序过程的进一步推演。
步骤4:之后,利用根据历史数据构建的时空相关立方体来提取邻域空间站点的空气质量预测值作为辅助数据,时空相关立方体是站点同站点之间在不同时刻的相关性强度,通过该模型可以自适应的提取出待预测时刻同该位置站点具有最强相关性的前K个重要的邻域站点;
进一步的,时空相关立方体的具体步骤为:
步骤4.1:以本发明示例实验为例,如图4-A所示,便是根据历史数据,通过衡量35个空气质量站点在对应的不同时刻(0:00-23:00)两两之间的相关性强弱构建得到的时空相关立方体(维度为35*35*24)。通过该立方体,可以在实际预测中,根据预测的所属时刻及空间位置,来确定需要引入的辅助站点优先级,具体引入辅助特征的个数是通过预测精度来自适应确定的。
其相关性强度计算公式为:
其中,Ks代表了不同站点在某一时刻的相关性强弱,Cov()代表着变量间的协方差,S(i,t)和S(j,t)代表了i站点和j站点在t时刻所对应的空气质量记录,代表了对应变量的标准差;
步骤4.2:时空相关立方体通过自相关系数来衡量不同时刻不同空间站点之间的相关性强弱,从而得到一天中所有时刻(24个)所有空气质量监测站点之间的相关性大小并以此来构建时空相关立方体;
步骤4.3:通过时空相关立方体,可以在实际预测中,根据所预测时段的所属时刻及位置,来确定需要引入的辅助站点优先级,例如,以0:00为例,假定现在需要预测某一站点在未来该时刻的空气质量指数,首先,本发明从时空相关立方体当中提取出该时刻所对应的站点之间的相关性,如图4-B所示,色彩强弱代表了相关性的强弱,暖色代表相关性越强,冷色代表相关性越弱。相关性强弱大小即代表了在该时刻,其他站点对于待预测站点的影响力顺序,通过其顺序来确定邻域站点特征添加的顺序。
步骤4.4:之后,根据邻域站点的相关性强弱对邻域站点进行排序,按照其重要性次序开始逐一添加进入随机森林算法进行训练,在进行邻域站点特征添加时,本方法并非采取类似研究中将全部站点添加进入,而是设计了一个Top-K重要邻域特征的自适应选择机制。具体的说,在每一次从时空相关立方体提取出相应时刻的空间站点相关性后,本发明会根据邻域站点的相关性强弱对邻域站点进行排序,按照其重要性次序开始逐一添加进入随机森林算法进行训练,按照模型精度来选择最佳的特征个数K。例如,如图4-C所示,假设根据精度变化曲线将K值选定为5,则与每个站点相关性最强的5个邻域站点将被保留并作为辅助特征添加进来。
步骤5:将通过时空相关立方体提取到的辅助站点数据和利用奇异谱分析模型得到的时序预测数据进行耦合,放入随机森林算法当中进行训练,构建多维特征-空气质量之间的相关模型,完成该位置站点在待预测时刻的最终空气质量拟合。耦合是指把两个原本无关的模型结合在一起,共同提升模型预测准确度。时空相关立方体可以根据站点相关性强弱(利用不同站点历史数据之间的相关系数来衡量)来帮助待预测站点选择辅助站点数据。
例如,要预测2020年1月5日12:00时刻的A01站点的空气质量,首先根据奇异谱分析模型,输入该站点历史时刻的气象数据(不是全部输入,有个渐进的时间输入窗口,如每次放入前72小时,这个窗口大小是一个可以调校的参数)来预测未来时刻的气象数据(预测时间窗口也是可以调整的),之后利用时空相关立方体来提取在该时刻和该站点相关性最强的前K个站点的预测数据作为辅助特征,选择依据是根据历史数据当中在该时刻(12:00)各个站点历史数据之间的相关性,K的选择是由精度来决定的,如当引入前5个重要站点时预测精度最高,则K保留为5.当选择好前K个邻域站点后,这些辅助站点的数据将和之前通过奇异谱分析的该站点预测数据相叠加,共同组成输入特征集,该特征集会放入随机森林模型之中,由随机森林模型预测得到最终的预测结果。
在示例实验中,为了证明本发明模型的多尺度时间窗口预测能力,时间预测窗口的大小选择为1-12小时渐进,如图5所示便是不同时间尺度的预测效果,其中红色为预测值、黑色为观测值。
为了进一步的证明本发明耦合模型的优良效果,在实施例中还选取了多个不同的模型在同样的数据集上进行了验证对比,对比模型选择了整合移动平均自回归模型(ARIMA)、普通奇异谱分析(SSA)、长短时记忆神经网络(LSTM)、一维卷积神经网络(CNN)等不同算法,对比结果如附表1所示。
表1
结果表明本文模型(STSR)在不同的预测时间尺度上表示出了良好的预测性能,拟合结果均高于同时段的其他算法。需要指出的是,在较长时刻的预测精度上,其他模型算法会出现精度的大幅下跌,而本文模型却有着很好的精度稳定性,表明本文模型具有良好的可靠性和泛化性能。
本发明的方法引入了奇异谱分析进行PM2.5监测数据和气象特征数据的时间序列预测,设计了时空相关立方体以自适应地选择前K个重要的空间邻域站点特征,将时间序列预测结果与前K个重要的空间邻域特征进行叠加构建样本特征集,最后利用随机森林算法完成不同时间尺度下的最终结果的拟合。通过本发明所提供的耦合模型,将奇异谱分析—时空相关立方体—随机森林模型结合在一块共同完成预测目的,可以有效地顾及不同空间站点之间的时空关联性,从而提高城市空间环境中单个站点在不同时间尺度下的时序预测效果和稳定程度,可以为城市大气管理决策提供参考依据。本发明预测输出时间窗口可调整,以本实验为例,进行了未来1-12小时的预测。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种顾及时空关联性的城市空气质量时序预测方法,其特征在于,包括如下步骤:
S1)采集城市空间范围内所设立的空气质量监测站点的历史时段记录数据,将采集的历史时段记录数据进行数据匹配形成多特征变量在不同空气质量站点的时序记录数据;
S2)对步骤S1)采集的时序记录数据进行数据预处理,最终形成时序完整的多个空气质量监测站点的历史记录数据;
S3)将待预测站点历史时刻的气象数据输入到奇异谱分析模型中,得到待预测站点预测数据,具体步骤为:
假定待预测时序特征共有k个,每类特征共包含n个时间记录,组成了大小为n*k的特征矩阵;
利用大小为l的时间窗口对时序数据进行遍历,形成多个长度为l的特征向量,组成特征矩阵Xlw,将每类特征的矩阵相嵌,叠加形成l*w*k维的特征立方体;相嵌是指将不同类别特征的特征矩阵Xlw进行叠加,组成l*w*k维特征立方体,k维指不同维度的特征;
计算每一类时序特征的特征矩阵Xlw的特征值和特征向量,即计算特征立方体的每一维剖面,并将特征值按照其重要性大小从大到小进行排序;
重构轨迹矩阵,将每一类时序特征的每一顺位特征值所对应的特征向量进行叠加,并对轨迹矩阵进行重构,形成新的特征矩阵;
通过奇异谱分析将时间序列分解为代表时间序列不同成分的特征,通过对这些重要特征分析并进一步进行预测,完成时序过程的进一步推演;
根据历史数据构建时空相关立方体,具体步骤为:
首先利用历史数据构建设定时间段内不同时刻、不同站点之间的相关矩阵,矩阵每个值代表了站点两两之间的相关性强度;
其相关性强度计算公式为:
其中,Ks代表了不同站点在某一时刻的相关性强弱,Cov()代表着变量间的协方差,S(i,t)和S(j,t)代表了i站点和j站点在t时刻所对应的空气质量记录,代表了对应变量的标准差;
时空相关立方体通过自相关系数来衡量不同时刻不同空间站点之间的相关性强弱,从而得到设定时间段中所有时刻所有空气质量监测站点之间的相关性大小并以此来构建时空相关立方体;
利用构建的时空相关立方体来提取在待预测时刻同待预测站点相关性最强的前K个邻域站点的预测数据作为辅助站点数据,包括:
通过时空相关立方体在实际预测中根据所预测时段的所属时刻及位置,来确定需要引入的辅助站点优先级,需要预测某一站点在未来该时刻的空气质量指数时,从时空相关立方体当中提取出该时刻所对应的站点之间的相关性,根据邻域站点的相关性强弱对邻域站点进行排序,选择前K个重要的空间邻域站点特征;
S4)将通过时空相关立方体提取到的辅助站点数据和利用奇异谱分析模型得到的待预测站点预测数据进行耦合,共同组成输入特征集,将输入特征集放入随机森林模型之中,由随机森林模型预测得到待预测站点在待预测时刻的最终的预测结果;
针对前K个重要的空间邻域站点特征,按照其重要性次序逐一添加进入随机森林算法进行训练;按照模型精度来选择最佳的特征个数K。
2.根据权利要求1所述的顾及时空关联性的城市空气质量时序预测方法,其特征在于:步骤S1)中的数据匹配是指将由空气质量监测站点所采集到的数据按照采集时间、采集站点、所属类别进行匹配,规范数据,得到的数据为各站点在不同时刻的气象监测数据。
3.根据权利要求1所述的顾及时空关联性的城市空气质量时序预测方法,其特征在于:采集的城市空间范围内所设立的空气质量监测站点的历史时段记录数据包括PM2.5监测数据和气象特征数据。
4.根据权利要求1所述的顾及时空关联性的城市空气质量时序预测方法,其特征在于:数据预处理包括异常值筛选、剔除、插值以及缺失值填补。
5.根据权利要求4所述的顾及时空关联性的城市空气质量时序预测方法,其特征在于:插值方法选择IDW反距离权重插值,通过插值获取在对应时刻空气质量监测站点位置的相应气象信息。
6.根据权利要求4所述的顾及时空关联性的城市空气质量时序预测方法,其特征在于:缺失值填补是利用随机森林算法对同一时刻的气象特征和PM2.5指数之间的相关性进行建模,根据气象特征同PM2.5数值之间的相关性模型,实现气象特征和PM2.5值之间的相互推测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114790.1A CN111340288B (zh) | 2020-02-25 | 2020-02-25 | 一种顾及时空关联性的城市空气质量时序预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114790.1A CN111340288B (zh) | 2020-02-25 | 2020-02-25 | 一种顾及时空关联性的城市空气质量时序预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340288A CN111340288A (zh) | 2020-06-26 |
CN111340288B true CN111340288B (zh) | 2024-04-05 |
Family
ID=71187079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114790.1A Active CN111340288B (zh) | 2020-02-25 | 2020-02-25 | 一种顾及时空关联性的城市空气质量时序预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340288B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183625A (zh) * | 2020-09-28 | 2021-01-05 | 武汉大学 | 一种基于深度学习的pm2.5高精度时空预测方法 |
CN112801423B (zh) * | 2021-03-29 | 2021-07-20 | 北京英视睿达科技有限公司 | 空气质量监测数据的异常识别方法及装置、存储介质 |
CN113077357B (zh) * | 2021-03-29 | 2023-11-28 | 国网湖南省电力有限公司 | 电力时序数据异常检测方法及其填补方法 |
US11512864B2 (en) * | 2021-04-14 | 2022-11-29 | Jiangnan University | Deep spatial-temporal similarity method for air quality prediction |
CN113077097B (zh) * | 2021-04-14 | 2023-08-25 | 江南大学 | 一种基于深度时空相似性的空气质量预测方法 |
CN113610286B (zh) * | 2021-07-27 | 2024-03-29 | 中国地质大学(武汉) | 顾及时空相关性和气象因素的pm2.5浓度预测方法及装置 |
CN113610243B (zh) * | 2021-08-12 | 2023-10-13 | 中节能天融科技有限公司 | 基于耦合机器学习和相关性分析的大气污染物溯源方法 |
CN116008481B (zh) * | 2023-01-05 | 2024-06-25 | 山东理工大学 | 基于大范围地面监测站点的空气污染物监测方法、装置 |
CN117332906B (zh) * | 2023-12-01 | 2024-03-15 | 山东大学 | 基于机器学习的三维时空网格空气质量预测方法及*** |
CN117540193A (zh) * | 2024-01-10 | 2024-02-09 | 飞特质科(北京)计量检测技术有限公司 | 一种风机传导干扰测试曲线特征数据的提取方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407633A (zh) * | 2015-07-30 | 2017-02-15 | 中国科学院遥感与数字地球研究所 | 基于时空回归克里金模型估算地面pm2.5的方法及*** |
CN106447072A (zh) * | 2016-08-01 | 2017-02-22 | 中国卫星海上测控部 | 基于显式遗传算法和奇异谱分析的气象水文要素预报方法 |
CN106971547A (zh) * | 2017-05-18 | 2017-07-21 | 福州大学 | 一种考虑时空相关性的短时交通流预测方法 |
CN107133398A (zh) * | 2017-04-28 | 2017-09-05 | 河海大学 | 一种基于复杂网络的河流径流量预测方法 |
CN107423861A (zh) * | 2017-08-09 | 2017-12-01 | 北京工业大学 | 基于迭代学习的空气质量预测方法 |
CN107563565A (zh) * | 2017-09-14 | 2018-01-09 | 广西大学 | 一种考虑气象因素变化的短期光伏分解预测方法 |
CN108053071A (zh) * | 2017-12-21 | 2018-05-18 | 宇星科技发展(深圳)有限公司 | 区域空气污染物浓度预测方法、终端及可读存储介质 |
CN108701274A (zh) * | 2017-05-24 | 2018-10-23 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与*** |
CN109492822A (zh) * | 2018-11-24 | 2019-03-19 | 上海师范大学 | 空气污染物浓度时空域关联预测方法 |
CN109902863A (zh) * | 2019-02-15 | 2019-06-18 | 浙江财经大学 | 一种基于多因素时空相关性的风速预测方法及装置 |
CN110210681A (zh) * | 2019-06-11 | 2019-09-06 | 西安电子科技大学 | 一种基于距离的监测站点pm2.5值的预测方法 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
CN110610258A (zh) * | 2019-08-20 | 2019-12-24 | 中国地质大学(武汉) | 融合多源时空数据的城市空气质量精细化估测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014194480A1 (en) * | 2013-06-05 | 2014-12-11 | Microsoft Corporation | Air quality inference using multiple data sources |
-
2020
- 2020-02-25 CN CN202010114790.1A patent/CN111340288B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407633A (zh) * | 2015-07-30 | 2017-02-15 | 中国科学院遥感与数字地球研究所 | 基于时空回归克里金模型估算地面pm2.5的方法及*** |
CN106447072A (zh) * | 2016-08-01 | 2017-02-22 | 中国卫星海上测控部 | 基于显式遗传算法和奇异谱分析的气象水文要素预报方法 |
CN107133398A (zh) * | 2017-04-28 | 2017-09-05 | 河海大学 | 一种基于复杂网络的河流径流量预测方法 |
CN106971547A (zh) * | 2017-05-18 | 2017-07-21 | 福州大学 | 一种考虑时空相关性的短时交通流预测方法 |
CN108701274A (zh) * | 2017-05-24 | 2018-10-23 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与*** |
CN107423861A (zh) * | 2017-08-09 | 2017-12-01 | 北京工业大学 | 基于迭代学习的空气质量预测方法 |
CN107563565A (zh) * | 2017-09-14 | 2018-01-09 | 广西大学 | 一种考虑气象因素变化的短期光伏分解预测方法 |
CN108053071A (zh) * | 2017-12-21 | 2018-05-18 | 宇星科技发展(深圳)有限公司 | 区域空气污染物浓度预测方法、终端及可读存储介质 |
CN109492822A (zh) * | 2018-11-24 | 2019-03-19 | 上海师范大学 | 空气污染物浓度时空域关联预测方法 |
CN109902863A (zh) * | 2019-02-15 | 2019-06-18 | 浙江财经大学 | 一种基于多因素时空相关性的风速预测方法及装置 |
CN110210681A (zh) * | 2019-06-11 | 2019-09-06 | 西安电子科技大学 | 一种基于距离的监测站点pm2.5值的预测方法 |
CN110610258A (zh) * | 2019-08-20 | 2019-12-24 | 中国地质大学(武汉) | 融合多源时空数据的城市空气质量精细化估测方法及装置 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
Non-Patent Citations (2)
Title |
---|
Prediction of vertical PM2.5 concentrations alongside an elevated expressway by using the neural network hybrid model and generalized additive model;Gao, Y 等;《FRONTIERS OF EARTH SCIENCE》;20170623;第11卷(第2期);全文 * |
基于Pearson相关指标的BP神经网络PM2.5预测模型;张怡文;敖希琴;时培俊;郭傲东;费久龙;陈家丽;;青岛大学学报(自然科学版);20170515(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111340288A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340288B (zh) | 一种顾及时空关联性的城市空气质量时序预测方法 | |
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN109508360B (zh) | 一种基于元胞自动机的地理多元流数据时空自相关分析方法 | |
CN106951611B (zh) | 一种基于使用者行为的严寒地区建筑节能设计优化方法 | |
CN112949945A (zh) | 一种改进双向长短期记忆网络的风电功率超短期预测方法 | |
CN111476713A (zh) | 基于多深度卷积神经网络融合的天气图像智能识别方法及*** | |
CN110929918A (zh) | 一种基于CNN和LightGBM的10kV馈线故障预测方法 | |
CN111950708B (zh) | 一种发现大学生日常生活习惯的神经网络结构与方法 | |
CN112232543A (zh) | 一种基于图卷积网络的多站点预测方法 | |
CN112785066B (zh) | 基于卷积-递归神经网络的全球野火次季节时空预测方法 | |
CN113516304B (zh) | 基于时空图网络的区域污染物时空联合预测方法及装置 | |
CN112396234A (zh) | 一种基于时域卷积神经网络的用户侧负荷概率预测方法 | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN111709393B (zh) | 联合卷积与循环神经网络的结构损伤识别方法 | |
CN117171546A (zh) | 一种结合污染扩散指数的城市空气质量预测方法 | |
CN111260082A (zh) | 一种基于神经网络的空间对象运动轨迹曲线预测方法 | |
CN114444561A (zh) | 基于CNNs-GRU融合深度学习模型的PM2.5预测方法 | |
CN115099450A (zh) | 基于融合模型的家庭碳排放监测核算平台 | |
CN114970946A (zh) | 基于深度学习模型与经验模态分解耦合的pm2.5污染浓度长时空预测方法 | |
Yu et al. | A diagnosis model of soybean leaf diseases based on improved residual neural network | |
CN117787508A (zh) | 基于模型预测的建筑施工过程碳排放处理方法及*** | |
CN116525135B (zh) | 基于气象因素的时空模型对疫情发展态势进行预测的方法 | |
CN117370766A (zh) | 一种基于深度学习的卫星任务规划方案评估方法 | |
CN116341391B (zh) | 基于STPM-XGBoost模型的降水预测方法 | |
CN117116045A (zh) | 一种基于时空序列深度学习的交通流量预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |