CN114662791A - 一种基于时空注意力的长时序pm2.5预测方法及*** - Google Patents
一种基于时空注意力的长时序pm2.5预测方法及*** Download PDFInfo
- Publication number
- CN114662791A CN114662791A CN202210424395.2A CN202210424395A CN114662791A CN 114662791 A CN114662791 A CN 114662791A CN 202210424395 A CN202210424395 A CN 202210424395A CN 114662791 A CN114662791 A CN 114662791A
- Authority
- CN
- China
- Prior art keywords
- data
- attention
- network
- prediction
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 13
- 239000003344 environmental pollutant Substances 0.000 claims description 16
- 231100000719 pollutant Toxicity 0.000 claims description 16
- 230000000737 periodic effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 24
- 239000003570 air Substances 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000012080 ambient air Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于PM2.5时序预测领域,是一种基于时空注意力的长时序pm2.5预测方法及***,所述方法包括获取输出并进行预处理;将预处理后的数据输入特征提取网络进行特征提取;利用空间注意力网络将不同站点提取的特征连接并融合;将空间注意力网络处理后的特征通过多层双向LSTM得到过去的特征;将待预测时间段对应的已知的未来特征数据,通过神经网络提取得到未来的特征并未来的特征进行连接后,得到预测结果;使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛;将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络,并输出预测结果;本发明能够精准的进行长时序的pm2.5预测。
Description
技术领域
本发明属于PM2.5时序预测领域,特别涉及一种基于时空注意力的长时序pm2.5预测方法及***。
背景技术
PM2.5(空气动力直径小于2.5μm的颗粒)作为大气中的主要污染物,因其对环境空气质量、公众健康和社会经济发展的负面影响而引起了预测领域的广泛关注。特别是PM2.5浓度预测对于控制和减少空气污染具有重要意义,有助于政府做出有效的预警决策,提醒公众健康出行。因此,有效的预测模型产生的PM2.5浓度预测更准确的预测结果将变得越来越重要。然而由于pm2.5受天气、车流量、风向、风速一起其他气象因子等外部因素的影响,出现了复杂的时间纠缠,使得pm2.5预测在长时序下仍具有挑战性。
PM2.5浓度预测方法主要分为物理模型法和数据驱动法两大类。基于物理模型方法研究如CMAQ模型和WRF/Chem模型被广泛应用于空气质量预测。本物理模型法通常基于大气污染物物理变化过程等专业知识,从专业角度构建污染物浓度变化模型。基于物理模型的方法的主要优点是应用广泛,可以清楚地看到一定环境条件下各要素相互作用的运行规律和原理。但由于pm2.5组成成分变异非常明显,物理传播过程极为复杂,缺乏对应的知识以及猜想,我们很难全面的考虑所有发生的情况。同时不同地区的环境有很大不同,例如风向与天气气候,当地的工业设施建设情况以及部署位置和密度的不同,还有车流量的变化,都会使得空气污染物的传输与反应在不同地方有着极大的差异。因此与物理模型法相比,基于数据驱动的统计方法建模简单,具有良好的性能。
现有技术中,然而由于大气环境的动态特性,递归神经网络(Recurrent neuralnetwork)可以处理任何输入序列,从而保证了对时间序列的学习能力,特别适合于模拟大气污染物分布的时间演化。然而,当传统的RNN滞后时间较长时,会出现梯度消失、梯度***等问题。长短时记忆(Long short term memory)网络可以在一定程度上缓解这一问题。
最近,利用复合模型的方法也成为一个趋势,一些方法利用卷积神经网络(convolutional neural network)挖掘数据的非线性空间相关性,从而进一步提高模型的性能。许多研究人员使用基于CNN-LSTM多层结构的神经网络来学习空气污染时间序列数据的内在时空相关性。然而,CNN网络是二维卷积的,这种方法破坏了数据原始的结构信息,忽略了时间相关性。
现有的PM2.5浓度预测方法忽略了不同站点的时空状态对未来PM2.5浓度的动态影响,大多数方法不能同时有效地模拟PM2.5浓度的时空依赖性。同时,站点自身的特征与站点之间的空间联系的同时处理会导致特征的提取出现误差,同时由于不同区域环境特征的多样性,因此如何根据数据特点自适应的提取特征,学习不同站点间的空间相关性,同时捕获复杂的pm2.5周期模式,是当前亟待解决的问题。
发明内容
为解决上述问题,本发明提出了一种基于时空注意力机制的自适应长时序pm2.5预测方法及***,所述方法包括以下步骤:
获取不同的污染物浓度数据和气象因子数据,并对其进行归一化和缺失值填补;
将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取;
利用空间注意力网络将不同站点提取的特征连接并融合;
将处理后的特征放入多层双向LSTM,得到数据的正向和反向趋势,用于提取PM2.5浓度的复杂周期性特征;
取已知的未来特征数据,用特征提取网络通过嵌入层后获得未来特征,连接过去的特征,最后通过线性层输出回归结果;
使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛;
将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络,并输出预测结果。
进一步的,将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取包括:
FEN(f)=GLU(μ0)+μ1;
μ0=tanh(w0f+b0);
μ1=w1f+b1;
其中,FEN(f)为特征提取网络;f为不同站点的预处理后的气象数据;GLU()为门控线性网络;w0为特征权重;b0为偏置项;w1为特征权重;b1为偏置项。
进一步的,门控线性网络提取非线性特征的过程,表示为:
GLU(μ0)=(σ(w1*μ0+b2)⊙(w1*μ0+b3));
其中,GLU(μ0)为根据输入数据提取的非线性特征;w1为隐特征权重;b2、b3为偏置项;⊙为点乘;σ()表示sigmoid函数。
进一步的,利用空间注意力网络将不同站点提取的特征连接并融合,即将提取的特征输入前馈神经网络得到站点的特征因子,表示为:
h0=wtarhtar+btar;
αi=concat(hi,h0);
并将目标站点的特征因子分别与其他站点的特征因子进行拼接,将拼接后的值通过双曲正切函数激活函数计算注意力权值,表示为:
通过softmax和注意权值计算每一站点的注意力权重,表示为:
其中,h0为目标特征影响权重;wtar为目标站点空间权重;btar为目标站点的空间偏置;hi为一个非目标站点的特征因子;αi为h0与hi拼接得到的特征;表示αi的第j维特征;wi为特征权重;bi为第i个站点的空间偏置;表示空气站点i的第j维的重要性权重,表示空气站点i的第j维的空间注意力权值;L为站点的特征维数,exp代表指数函数;htar为目标站点特征序列。
进一步的,考虑到数据的标准偏差波动和平均误差的损失函数表示为:
其中,Loss为损失函数;MSE为参数估计中的均方误差;Std*为预测序列的标准差;Std为真实序列的标准差;w2为L2正则化参数,表示为λ为正则化参数,wi为第i个神经网络的参数;M为神经网络中的参数个数。
进一步的,参数估计中的均方误差为参数估计值与参数真值之差平方的期望值,表示为:
进一步的,预测序列和真实序列的标准差计算过程包括:
本发明还提出一种基于时空注意力的长时序pm2.5预测的***,该***用于实现一种基于时空注意力的长时序pm2.5预测的方法,该***包括时序数据获取模块、特征提取模块、空间注意力网络、多层双向LSTM、时序特征提取模块、特征连接模块以及预测模块;其中:
时序数据获取模块,用于用于获取不同站点的污染物浓度数据和气象因子数据,包括历史数据和实时数据,根据历史数据对***进行训练;实时数据输入完成训练的***进行实时预测;
特征提取模块,用于提取时序数据获取模块获取的数据的特征,特征提取模块将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取;并将目标站点,即待预测的站点的特征与其他站点的特征
空间注意力网络,用于获取每个辅助站点的注意力权重,即将待预测的站点作为目标站点,其他站点作为辅助站点,将特征提取模块获取的特征通过前馈神经网络得到站点的特征因子,将目标站点的特征因子分别与每个辅助站点的特征因子进行拼接后通过双曲正切函数激活函数计算注意力权值,并通过softmax和注意权值计算每一站点的注意力权重;
多层双向LSTM,用于提取空间注意力网络输出特征的周期性特征;
时序特征提取模块,用于获取已知的未来特征数据,即待预测时间段所在季节以及即将到来的节假日信息,并采用嵌入运算将采集的信息转化为维数向量,并通过神经网络提取其特征;
预测模块,用于获取多层双向LSTM输出的特征与时序特征提取模块输出的特征进行线型加权后得到回归预测结果,将该预测结果作为预测的***的输出。
与现有技术相比,本发明的有益技术效果包括:
(1)本发明相较于其他pm2.5时序预测模型具有精度高的效果,能够对任意特征维度输入的数据集进行特征提取以及时空注意力参数。
(2)设计了一个自适应特征选择网络,能够动态的捕捉数据的线性特征与非线性特征,根据不同数据集的特点自适应决定模型的拟合复杂程度,提升了模型的灵活性。
(3)为该模型设计了一种新的注意机制,能够实现精确空间解释。该注意机制可以同时获得目标站点与辅助站点之间的注意权值。该算法自适应地对不同区域的不同特征状态进行加权,并捕捉各个辅助时间序列与目标时间序列之间的复杂动态关系。
(4)本发明在空间特征提取特征提取后增加了时间特征提取模块,该模块可以捕捉数据的正向和反向的时间趋势,并可以用来提取复杂的周期特。
(5)本发明提出了一种时序特征增强模块,利用了已知的未来数据,该模块基于已知的节假日周期等时序数据,增强了模型的感知视野,最后将过去高维隐特征数据与未来隐特征连接,得到了多尺度的时序特征数据。
(6)本发明提出了一种误差衡量指标,不但利用了预测值和实际观测数值上的绝对误差,同时能够衡量长时序数据的波动程度,能够全面的反应预测值和实际观测数值的区别。
附图说明
图1为本发明实施例的一种基于时空注意力机制的长时序pm2.5预测方法的流程图;
图2为本发明实施例的站点自适应特征提取模块的结构示意图;
图3为本发明实施例的站点空间注意力权重获取模块的结构示意图;
图4为本发明实施例的LSTM模块的结构示意图;
图5为本发明实施例的一种基于时空注意力机制的长时序pm2.5预测网络的结构示意图;
图6为本发明实施例的训练流程示意图;
图7为本发明实施例的一个应用效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于时空注意力机制的自适应长时序pm2.5预测方法,包括以下步骤:
获取不同的污染物浓度数据和气象因子数据,并对其进行归一化和缺失值填补;
将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取;
利用空间注意力网络将不同站点提取的特征连接并融合;
将处理后的特征放入多层双向LSTM,得到数据的正向和反向趋势,用于提取PM2.5浓度的复杂周期性特征;
取已知的未来特征数据,用特征提取网络通过嵌入层后获得未来特征,连接过去的特征,最后通过线性层输出回归结果;
使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛;
将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络,并输出预测结果。
本发明提供的一种基于时空注意力的长时序pm2.5预测方法可以应用于如下场景:
一、天气预测场景
对于气候预测的需求,可以给相关机构实现技术上的辅助手段,后台调用本申请提供的pm2.5时序预测模型,对调用者提取未来一段时间的pm2.5预测结果。
二、出行提示场景
例如,当用户需要安排出行计划的时候,为了减少突发天气情况导致的行程破坏,可以给用户提供未来一段时间的空气质量情况,用于辅助用户进行出行计划的安排。
三、空气预警场景
可以辅助相关的政府部门有数据支撑的可靠决策,对于可能发生的空气污染预警,城市和个人可以提前做出反应,例如限制交通出行、暂时关闭重污染的工厂、限制部分人群(有呼吸道等相关疾病)的户外活动、个人提前佩戴口罩等一系列行为来降低可能受到的损害。
为了便于理解,本实施例提出了一种基于时空注意力机制的长时序pm2.5预测方法的具体实施方式,如图1所示,包括:
101、获取不同站点的污染物浓度数据和气象因子数据,对其进行预处理操作。
具体的,采用已有的西安与北京的空气质量数据集进行相应的预处理,在本发明实施例中,以北京的空气质量数据集为例,该数据集由空气质量特征、气象特征和时间特征三部分组成。该研究数据集的空气质量数据来自UCI公共数据及。我们选取北京地区时间范围为2010年1月1日至2014年12月31日的12个监测站的每小时空气质量记录,共43824条。每个空气质量例子都包含六种污染物,即污染物浓度数据包括:PM2.5、PM10、NO2、CO、O3和SO2。同时记录气象,即气象因子数据包括时间、天气、温度、压力、湿度、风速和风向7个属性。
这些数据集在均值和方差上都波动较大。对于数据集,按照时序顺序选择60%、10%、30%作为训练、验证、测试集。对于连续缺失数据,根据前后数据进行线性插值填充缺失数据。本实施例还向每个数据块添加了包括年、月、日、星期几等时间信息。
最后数据集在输入到网络之前,对不同尺度的特征数据进行了归一化的处理,以保证每个特征被分类器平等对待,避免在绝对数值上的小数据特征被大数据特征过度影响的情况。
102、将不同站点预处理后的气象数据输入到特征提取网络中进行特征提取。
将预处理后的训练时序数据样本输入到特征提取网络(Feature ExtractionNetwork)中。首先来自不同站点的时序数据样本作为训练样本会进入各自的特征提取网络之中,其中输入f是单个站点的多维时序特征,对于可能存在的类别特征我们利用嵌入操作将分类特征转换为维数向量,来统一数据。首先用线性激活层来获取数据集的非线性特征数据,然后通过门控线性网络GLU来对映射到隐层的非线性特征进行自适应的选择,对重要的特征进一步放大,抑制一些可能无作用的特征,GLU的公式如下所示:
GLU(μ0)=(σ(w1*μ0+b2)⊙(w1*μ0+b3));
同时为了让模型有自适应选择拟合复杂程度能力,还对输入进行了残差连接,让初始输入再经过线性层获取简单的线性特征最后再将提取的线性特征与非线性特征相加进行自适应的特征选取,整体结构如下:
μ0=tanh(w0f+b0)
μ1=w1f+b1
FEN(f)=GLU(μ0)+μ1
103、利用空间注意力网络将提取到的不同站点的特征进行连接融合。
本实施例中,利用空间注意力提取网络对进行特征提取处理后的各个站点的特征进行空间注意力获取,首先让目标站点特征序列通过浅层感知机,即前馈神经网络(FNN),获取目标特征影响权重h0,其中htar为目标站点特征序列,然后将所有站点的特征序列与目标站点特征因子相连接获取序列特征αi,包括:
h0=wtarhtar+btar
αi=concat(hi,h0)
其中,wtar为目标站点空间权重;btar为目标站点空间偏置。
然后,让序列特征通过浅层多层感知和双曲正切函数激活函数(tanh),得到以下的注意权值:
接下来,通过softmax公式来估计每一站点的空间注意力权重:
104、将处理后的特征放入多层双向LSTM中,获取数据的正向和反向趋势,用来提取PM2.5浓度的复杂周期性特征。
得益于复杂的门控机制,lstm可以在长时序数据中选择性的存储和丢弃信息,因此比起传统的RNN能够有效缓解长时序依赖建模时的梯度***和梯度消失的问题,图给出了LSTM单元模块的基本结构。它是由负责存储历史信息的记忆细胞ct当前时刻隐藏状态ht的和其他三个负责处理消息传递的门控机制组成。其中遗忘门ft是由ht、xt决定的从上一时刻的ct-1中获取消息,输入门用于决定从输入xt和上一时刻隐藏状态ht-1中获取多少消息,输出门决定从当前ct获取并输出ht,公式如下所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ft⊙ct-1+it⊙σc(Wcxt+Ucht-1+bc)
ht=ot⊙tanh(ct)
其中,σg()表示sigmoid函数;Wf表示遗忘门权重;xt表示当前时刻输入;Uf表示遗忘门权重;bf表示遗忘门偏置;Wi表示输入门权重;Ui表示输入门权重;bi表示输入门权重;Wo表示输出门权重;Uo表示表示输出门权重;b0表示输出门偏置;it表示输入门的结果;σc()表示sigmoid函数,本实施例中sigmoid函数下标g、c仅表示该sigmoid函数是用于某一些区域的sigmoid函数,例如σg()是遗忘门、输入门、输出门的sigmoid函数,σc()表示当前细胞的sigmoid函数;Wc表示当前细胞态权重;Uc表示当前细胞态权重;bc表示当前细胞态偏置。
Bi-LSTM模块作为周期性时间模拟器,可以捕捉数据的正向和反向趋势,并可以用来提取PM2.5浓度周期特征。因此我们选用多层双向lstm用于提取网络的时间特征,相较于用单向LSTM用来获取时序数据的周期特征,其携带了更为丰富的特征信息,能够同时捕捉周期数据的前向和后向趋势,这可以更高效的利用数据的时序信息,从而能够更为精确地对时序数据进行预测。
105、将已知的未来特征数据,通过嵌入层后使用特征提取网络获取未来特征,连接过去特征,最后通过线性层输出回归结果。
受到人类自然活动和气象条件的影响,pm2.5在全球很多区域具有明显的多尺度周期性。已知的未来特征数据包括季节、即将到来的节假日、周末等。不同于pm2.5等连续数字特征,这些未来的时间周期特征是可以提前获取的,他们与预测的结果有着直接时间对应联系,对最终预测结果有辅助作用。
为了统一数值特征和类别特征,采用嵌入运算将类别特征转化为维数向量。这种操作类似于自然语言处理任务中的单词嵌入,可以通过网络进行训练。通过这种方式,类别特征具有“语义”意义,可以直接输入到神经网络中。将经过嵌入运算的未来时间特征进行特征提取后,与处理后的过去时序特征连接融合后得到回归预测结果。
106、使用考虑数据的标准差波动和均值误差的损失函数,对网络进行迭代训练直至收敛。
在该发明中,我们使用包含L2权值正则化的损失函数来更新模型中的参数,可以防止深度网络过拟合,避免模型中某个特征优于模型预测性能的情况。损失函数可被定义如下:
其中MSE定义如下,参数估计中均方误差是指参数估计值与参数真值之差平方的期望值,其中N是预测样本数量。
Std*,Std定义如下所示,标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同,因此为了同时反应预测序列和真实序列之间的数据波动差别,我们将标准差加入了公式,其中Std*表示的是预测序列,Std代表的是真实序列,y-代表真实序列的均值;y*-表示预测序列的均值;y(j)代表真实序列中第j个元素的值;表示预测序列中第j个元素的值,预测序列和真实序列中每个元素即为一个站点。
w2为L2正则化,w2的定义表示为:
其中,λ为正则化参数,wi为第i个神经网络的权重参数,M为神经网络中的参数个数。设置w2目的是限制参数过多或者过大,避免模型更加复杂。例如,当使用多项式模型,如果模型中包含了高阶多项式,模型可能过于复杂,容易发生过拟合。所以,为了防止过拟合,可以将其高阶部分的权重限制为0,这样,就相当于从高阶的形式转换为低阶。
因此,当预测时序样本长度为N时,损失函数也可以写成如下形式。
107、将待测的站点数据输入到训练完成的基于时空注意力的PM2.5预测网络中,输出预测结果。
在本发明实施例中,可以将待遇测时序数据输入神经网络,并根据预测实际需求,动态选择预测长度,同时可以从过去时序数据输出过去回归结果,或者联合未来时间特征网络输出过去、未来特征连接融合结果,该模型可以应用于任何涉及多元时空序列的应用,不仅仅应对pm2.5,同时为预测提供了时空可解释性。
在本发明另一些实施例中,本发明还提供了一种基于时空注意力的长时序pm2.5预测的***,所述***包括:
时序数据获取模块,用于获取不同站点的污染物浓度数据和气象因子数据。
数据预处理模块,用于对不同站点的污染物浓度数据和气象因子数据进行预处理。
基于时空注意力的神经网络训练模块,将预处理后的训练时序数据样本输入到特征提取网络中,让初始输入获取线性特征同时提取非线性特征,最后进行自适应的特征选取。然后对经过特征提取处理后的各个站点的特征,利用空间注意力提取网络进行空间注意力权重的获取,得到各个站点的注意力权重,之后选用多层双向lstm用于提取网络的时间特征,它能够同时捕捉周期数据的前向和后向趋势,、将已知的未来特征数据,通过嵌入层后使用特征提取网络获取未来特征,连接过去特征,最后通过线性层输出回归结果;联合考虑数据的标准差波动和均值误差的的损失函数,对神经网络进行迭代训练直至收敛;
输出模块,用于输出待测的站点时序数据的预测结果。
在一些实施例中,本发明可以使用ADAM优化器进行训练调节,经过多轮训练后,神经网络趋于稳定,迭代训练结束,训练过程如图6所示:
获取不同站点的污染物浓度数据和气象因子数据后,对数据集进行预处理;
构建出基于时空注意力的神经网络模型;
使用数据集训练神经网络,并进行多次迭代;
将神经网络的输出结果与时间序列真实值进行损失求解,直至损失趋于稳定;
此时,结束训练并保存训练好的神经网络模型。
训练完成的神经网络模型如图5所示,其中自适应特征提取模块如图2所示,空间注意力特征提取模块如图3所示,时间注意力提取模块如图4所示。
在一些实施例中,所述神经网络训练模块包括过去特征网络模块和未来特征网络模块,其中过去特征网络模块由自适应特征提取模块、空间注意力特征提取模块,时间注意力提取模块构成,该网络模块用于过去特征的提取;而未来特征网络模块由特征嵌入模块、特征提取模块构成。
所述自适应特征提取模块让各个站点初试输入获取线性特征的同时提取非线性特征,最后进行自适应的特征选取,空间注意力特征提取模块用于各个站点的空间注意力权重的获取,时间注意力提取模块用于获取数据的复杂周期模式,未来特征网络模块是基于过去特征的回归结果,融合了未来的时间特征后做进一步的回归预测。
图7是本发明的时序预测结果图,获取原始的过去未来时序数据后,对数据做缺失值填充、数据归一化、数据对齐、数据清理的预处理,使输入更为稳定可靠;将处理好的数据输入到基于时空注意力的pm2.5时序预测网络中进行特征提取及时序预测,从图像中可以看出最终输出的包含预测值和真实值的预测结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于时空注意力的长时序pm2.5预测方法,其特征在于,包括以下步骤:
获取不同的污染物浓度数据和气象因子数据,并对其进行归一化和缺失值填补;
将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取;
利用空间注意力网络将不同站点提取的特征连接并融合;
将空间注意力网络处理后的特征通过多层双向LSTM得到过去的特征;
将待预测时间段对应的已知的未来特征数据,即待预测时间段对应的的季节以及节假日信息,通过嵌入层获取转化为维数向量,并通过神经网络提取得到未来的特征;
将过去的特征与未来的特征进行连接后,通过线性层输出回归结果,即得到预测结果;
使用考虑到数据的标准偏差波动和平均误差的损失函数对网络进行迭代训练直到收敛;
将待测站点数据输入已完成训练的基于时空注意力的PM2.5预测网络,并输出预测结果。
2.根据权利要求1所述的一种基于时空注意力的长时序pm2.5预测方法,其特征在于,将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取包括:
FEN(f)=GLU(μ0)+μ1;
μ0=tanh(w0f+b0);
μ1=w1f+b1;
其中,FEN(f)为特征提取网络;f为不同站点的预处理后的气象数据;GLU()为门控线性网络;w0为特征权重;b0为偏置项;w1为特征权重;b1为偏置项。
3.根据权利要求2所述的一种基于时空注意力的长时序pm2.5预测方法,其特征在于,门控线性网络提取非线性特征的过程,表示为:
GLU(μ0)=(σ(w1*μ0+b2)⊙(w1*μ0+b3));
其中,GLU(μ0)为根据输入数据提取的非线性特征;w1为隐特征权重;b2、b3为偏置项;⊙为点乘;σ()表示sigmoid函数。
4.根据权利要求1所述的一种基于时空注意力的长时序pm2.5预测方法,其特征在于,利用空间注意力网络将不同站点提取的特征连接并融合,即将提取的特征输入前馈神经网络得到站点的特征因子,表示为:
h0=wtarhtar+btar;
αi=concat(hi,h0);
并将目标站点的特征因子分别与其他站点的特征因子进行拼接,将拼接后的值通过双曲正切函数激活函数计算注意力权值,表示为:
通过softmax和注意权值计算每一站点的注意力权重,表示为:
8.一种基于时空注意力的长时序pm2.5预测的***,其特征在于,该***用于实现权利要求1~7所述的任意一种基于时空注意力的长时序pm2.5预测的方法,该***包括时序数据获取模块、特征提取模块、空间注意力网络、多层双向LSTM、时序特征提取模块、特征连接模块以及预测模块;其中:
时序数据获取模块,用于用于获取不同站点的污染物浓度数据和气象因子数据,包括历史数据和实时数据,根据历史数据对***进行训练;实时数据输入完成训练的***进行实时预测;
特征提取模块,用于提取时序数据获取模块获取的数据的特征,特征提取模块将不同站点的预处理后的气象数据输入其对应的特征提取网络进行特征提取;并将目标站点,即待预测的站点的特征与其他站点的特征
空间注意力网络,用于获取每个辅助站点的注意力权重,即将待预测的站点作为目标站点,其他站点作为辅助站点,将特征提取模块获取的特征通过前馈神经网络得到站点的特征因子,将目标站点的特征因子分别与每个辅助站点的特征因子进行拼接后通过双曲正切函数激活函数计算注意力权值,并通过softmax和注意权值计算每一站点的注意力权重;
多层双向LSTM,用于提取空间注意力网络输出特征的周期性特征;
时序特征提取模块,用于获取已知的未来特征数据,即待预测时间段所在季节以及即将到来的节假日信息,并采用嵌入运算将采集的信息转化为维数向量,并通过神经网络提取其特征;
预测模块,用于获取多层双向LSTM输出的特征与时序特征提取模块输出的特征进行线型加权后得到回归预测结果,将该预测结果作为预测的***的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424395.2A CN114662791A (zh) | 2022-04-22 | 2022-04-22 | 一种基于时空注意力的长时序pm2.5预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424395.2A CN114662791A (zh) | 2022-04-22 | 2022-04-22 | 一种基于时空注意力的长时序pm2.5预测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114662791A true CN114662791A (zh) | 2022-06-24 |
Family
ID=82037089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424395.2A Pending CN114662791A (zh) | 2022-04-22 | 2022-04-22 | 一种基于时空注意力的长时序pm2.5预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662791A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913098A (zh) * | 2023-09-14 | 2023-10-20 | 华东交通大学 | 一种融合空气质量与车流量数据的短时交通流预测方法 |
CN116936103A (zh) * | 2023-09-12 | 2023-10-24 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及*** |
CN117609792A (zh) * | 2024-01-18 | 2024-02-27 | 北京英视睿达科技股份有限公司 | 一种水质预测模型训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180073759A1 (en) * | 2016-09-13 | 2018-03-15 | Board Of Trustees Of Michigan State University | Intelligent Sensing System For Indoor Air Quality Analytics |
CN109214592A (zh) * | 2018-10-17 | 2019-01-15 | 北京工商大学 | 一种多模型融合的深度学习的空气质量预测方法 |
US20210018210A1 (en) * | 2019-07-16 | 2021-01-21 | Airthinx, Inc | Environment monitoring and management systems and methods |
CN113887143A (zh) * | 2021-10-21 | 2022-01-04 | 重庆邮电大学 | 多源异构空气污染物的空间插值方法、装置及计算机设备 |
-
2022
- 2022-04-22 CN CN202210424395.2A patent/CN114662791A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180073759A1 (en) * | 2016-09-13 | 2018-03-15 | Board Of Trustees Of Michigan State University | Intelligent Sensing System For Indoor Air Quality Analytics |
CN109214592A (zh) * | 2018-10-17 | 2019-01-15 | 北京工商大学 | 一种多模型融合的深度学习的空气质量预测方法 |
US20210018210A1 (en) * | 2019-07-16 | 2021-01-21 | Airthinx, Inc | Environment monitoring and management systems and methods |
CN113887143A (zh) * | 2021-10-21 | 2022-01-04 | 重庆邮电大学 | 多源异构空气污染物的空间插值方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
JUNYOUNG CHOI: "Air Quality Prediction with 1-Dimensional Convolution and Attention on Multi-modal Features", 《2021 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING》, 10 March 2021 (2021-03-10), pages 196 - 202 * |
XIAOXIA ZHANG: "An adaptive spatio-temporal neural network for PM2.5 concentration forecasting", 《ARTIFICIAL INTELLIGENCE REVIEW》, vol. 56, 31 May 2023 (2023-05-31), pages 14483 - 14510 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936103A (zh) * | 2023-09-12 | 2023-10-24 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及*** |
CN116936103B (zh) * | 2023-09-12 | 2023-12-15 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及*** |
CN116913098A (zh) * | 2023-09-14 | 2023-10-20 | 华东交通大学 | 一种融合空气质量与车流量数据的短时交通流预测方法 |
CN116913098B (zh) * | 2023-09-14 | 2023-12-22 | 华东交通大学 | 一种融合空气质量与车流量数据的短时交通流预测方法 |
CN117609792A (zh) * | 2024-01-18 | 2024-02-27 | 北京英视睿达科技股份有限公司 | 一种水质预测模型训练方法 |
CN117609792B (zh) * | 2024-01-18 | 2024-06-11 | 北京英视睿达科技股份有限公司 | 一种水质预测模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899510B (zh) | 基于发散卷积和gat的智能交通***流量短期预测方法及*** | |
CN111191841B (zh) | 一种电力负荷预测方法、装置、计算机设备及存储介质 | |
CN108280551B (zh) | 一种利用长短期记忆网络的光伏发电功率预测方法 | |
CN114626512B (zh) | 一种基于有向图神经网络的高温灾害预报方法 | |
Alaloul et al. | Data processing using artificial neural networks | |
CN114662791A (zh) | 一种基于时空注意力的长时序pm2.5预测方法及*** | |
Wang et al. | Adaptive learning hybrid model for solar intensity forecasting | |
Navone et al. | Predicting Indian monsoon rainfall: a neural network approach | |
CN110348624B (zh) | 一种基于Stacking集成策略的沙尘暴等级预测方法 | |
CN110647980A (zh) | 一种基于gru神经网络的时间序列预测方法 | |
CN112116080A (zh) | 一种融合了注意力机制的cnn-gru水质预测方法 | |
CN112488415A (zh) | 基于经验模态分解和长短时记忆网络的电力负荷预测方法 | |
CN111695731B (zh) | 基于多源数据和混合神经网络的负荷预测方法、***及设备 | |
CN111814956B (zh) | 一种基于多维度二次特征提取的多任务学习的空气质量预测方法 | |
CN112508265A (zh) | 面向业务流程管理的时间与活动多任务预测方法及*** | |
CN114492922A (zh) | 一种中长期发电量预测方法 | |
De Saa et al. | Comparison between arima and deep learning models for temperature forecasting | |
CN117494871A (zh) | 一种考虑船舶交互影响的船舶轨迹预测方法 | |
CN117494034A (zh) | 基于交通拥堵指数和多源数据融合的空气质量预测方法 | |
CN116844041A (zh) | 一种基于双向卷积时间自注意力机制的耕地提取方法 | |
De et al. | Forecasting chaotic weather variables with echo state networks and a novel swing training approach | |
CN114912169B (zh) | 基于多源信息融合的工业建筑供热自主优化调控方法 | |
Senekane et al. | Weather Nowcasting Using Deep Learning Techniques | |
CN116434569A (zh) | 基于stnr模型的交通流量预测方法及*** | |
CN113821974B (zh) | 基于多故障模式的发动机剩余寿命预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |