CN110866631A

CN110866631A - 基于集成的门递归单元神经网络gru来预测大气污染情况的方法

Info

Publication number: CN110866631A
Application number: CN201910952817.1A
Authority: CN
Inventors: 廖军; 季恩泽; 刘礼; 张毅
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-03-06

Abstract

本发明公开了基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，1)利用局部均值分解函数LMD对大气污染物数据集S₁₁(t)进行多模态特征提取，得到大气污染物特征数据集；2)利用训练数据集建立门递归单元神经网络GRU，并利用训练数据集对门递归单元神经网络GRU进行训练；3)将归一化后的不同类别的特征数据集输入到门递归单元神经网络GRU中，输出归一化后的子模式预测值；4)采用逆LMD运算对归一化后的子模式预测值进行多模态特征估计值集成，得到训练好的LMD‑GRU神经网络模型。本发明解决了LSTM模型对雾霾进行回归预测中的特征学习不明显，使得模型的性能不如多模式特征学习模型强，精度低，实际预测效果不理想的问题。

Description

基于集成的门递归单元神经网络GRU来预测大气污染情况的方法

技术领域

本发明涉及环境工程检测技术领域，具体是基于集成的门递归单元神经网络GRU来预测大气污染情况的方法。

背景技术

环境问题日益严重，空气污染对环境、人类健康和社会经济有严重的不利影响，特别是空气动力学当量直径小于2.5毫米(PM2.5) 的颗粒物，更容易被吸入，导致高死亡率，慢性病加剧，呼吸*** 及心脏***疾病恶化。通过提供预警来保护公众健康，PM2.5浓度预测是一项重要而有效的工作，在准确可靠的建模基础上向公众公布未来几个小时的污染物浓度从而可以指导预警决策活动。

目前对大气污染的的研究提出了各种数据驱动的方法来进行预测，包括线性模型和非线性模型。由于受到气温，压强，风速，雨雪量等多变量的影响，PM2.5序列的特征表现出非线性和时变复杂性。

深度学习是当今人工智能领域研究和应用开发的热点，是基于 ANN发展起来的一项技术，通过调节网络参数，迭代学习来寻找到最佳的权重表达模型，自动的学习数据的特征，更好的表达数据本身。

目前存在一种通过在python环境下搭建深度学***均绝对误差(MAE)损失函数作为评测指标对模型进行评估。该方法采用了LSTM预测模型解决了序列数据的长依赖问题，比传统模型更加灵活调参。但该模型在处理天气数据进行回归预测时，还是从单一模式出发，序列数据的内在特征表达不明显。

发明内容

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的，基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，主要包括以下步骤：

1)获取历史天气数据集，对历史天气数据集进行预处理。所述历史天气数据集包括大气污染物数据集s₁₁(t)和气象数据集。

进一步，所述大气污染物数据集s₁₁(t)包括PM2.5浓度数据。

所述气象数据集包括日期、露点、温度、大气压、风向、风速、降雪量和/或降雨量。

进一步，对历史天气数据进行预处理的主要步骤为：

1.1)在历史天气数据集中缺失数据的位置填0。

1.2)删除历史天气数据集中非特征数据列。所述非特征数据包括日期。特征数据包括大气污染物数据、露点、温度、大气压、风向、风速、降雪量和/或降雨量

1.3)为不同类别的特征数据集添加类别编码。

2)将预处理后的历史天气数据集划分为训练数据集和测试数据集，并分解为不同类别的特征数据集。

3)利用局部均值分解函数LMD对大气污染物数据集s₁₁(t)进行多模态特征提取，得到大气污染物特征数据集。

进一步，利用局部均值分解函数LMD对大气污染物数据进行多模态特征提取的主要步骤如下：

3.1)确定待处理数据集s_Ij(t)第I个半波振动内的所有局部极值点，并计算相邻极值点的平均值m_i，即：

式中，n_i和n_i+1表示相邻的两个极值点。i为极值点序号。1≤i ≤n。n为局部极值点总数。j初始值为1。I为PF分量序列号。1≤I ≤T。I初始值为1。

3.2)绘制平均值线段，并利用滑动平均方法对平均值线段进行平滑处理，得到局部均值函数m_1j(t)。j初始值为1。

3.3)计算局部极值点n_i对应的包络估计值a_i，即：

3.4)绘制包络估计值线段，并利用滑动平均方法对包络估计值线段进行平滑处理，得到包络估计函数a_Ij(t)。

3.5)将局部均值函数m_Ij(t)从待处理数据集s_Ij(t)中分离出来，得到分离后的数据集h_Ij(t)＝s_Ij(t)-m_Ij(t)。

3.6)对分离后的数据集h_Ij(t)进行处理，得到解调后的数据集 s_Ij+1(t)，即：

3.7)判断解调后的数据集s_Ij+1(t)是否满足正交性准则，若否，则令j＝j+1，并返回步骤3.1，若是，则迭代结束。

判断解调后的数据集s_1j+1(t)是否满足正交性准则的步骤如下：

3.7.1)计算待处理数据集s_1j(t)的正交指数OC_1j，即：

其中，m_Ij(t)为第I个PF分量时计算得到的第j次局部均值函数值。T为分解得到的PF分量序列总个数。

计算待处理数据集s_1j+1(t)的正交指数OC_1j+1，即：

3.7.2)计算正交指数差值Δ＝OC_1j+1-OC_1j，若差值Δ＝0，则判断解调后的数据集s_1j+1(t)满足正交性准则。

3.8)计算第I个PF分量的包络序列a_I(t)＝a_I1(t)a_I2(t)...a_In(t)。

大气污染物数据集s₁₁(t)第I个PF分量如下所示：

PF_I(t)＝a_I(t)s_In(t)。 (6)

3.9)第I个PF分量PF_I(t)从原始序列中分离出来，得到一个新信号μ_I(t)，当μ_I(t)不满足单调性时，重复上述步骤3.1至步骤3.8，循环k次，直到μ_k(t)为单调函数。

3.10)令I＝I+1，返回步骤3.1，直至I＞T。

3.11)将大气污染物数据集s₁₁(t)分解为k个PF分量和一个单调函数μ_k(t)之和，即：

式中，p表示任意PF分量。

4)对大气污染物特征数据集和气象数据进行归一化处理。

对大气污染物特征数据集和气象数据进行归一化处理的方法为：

其中，X′表示归一化后的数据。X_max表示数据的最大值。X_min表示数据的最小值。X指代大气污染物特征数据集和气象数据集中的元素。

5)利用训练数据集建立门递归单元神经网络GRU，并利用训练数据集对门递归单元神经网络GRU进行训练。

GRU神经网络模型包括一个输入层，一个GRU隐藏层和一个输出层。GRU神经网络模型通过门递归长短期记忆模块更新数据，一个门递归长短期记忆模块由更新门和重置门构成。更新数据主要步骤如下：

5.1)令t时刻的输入为X_t，隐藏层输出为h_t，上一时刻隐藏层输出为h_t-1。

5.2)数据通过GRU神经网络模型进行前向传播，内部各门状态具体可如下所示：

重置门r_t＝σ(W_r·[h_t-1，x_t]+b_r)。

更新门z_t＝σ(W_z·[h_t-1，x_t]+b_z)。

候选隐含状态

隐含状态

式中，tanh为双曲正切函数。σ为sigmoid函数。W_r、W_z、W_h、 W_y分别为重置门、更新门、候选隐含状态函数和输出函数的权重矩阵。b_r、b_z、b_h、b_y为重置门、更新门、候选隐含状态函数和输出函数的偏移向量。h_t-1为t-1时刻对应的隐含状态。

5.3)GRU神经网络模型输出值y_t＝σ(W_y·h_t+b_y)。

GRU神经网络模型使用平均绝对误差MAE损失函数来更新参数，MAE函数如下所示：

其中，N表示输出向量的维度，y_l表示训练数据的真实值，y′_l表示训练数据的预测值。

GRU神经网络模型采用Adam梯度下降算法更新GRU神经网络模型中的权重和偏移。

6)将归一化后的不同类别的特征数据集输入到门递归单元神经网络GRU中，输出归一化后的子模式预测值；

7)采用逆LMD运算对归一化后的子模式预测值进行多模态特征估计值集成，得到训练好的LMD-GRU神经网络模型。

对归一化后的子模式预测值进行多模态特征估计值集成的主要步骤如下：

7.1)集成不同类别特征数据集的PF分量序列，第p个PF集成分量序列如下所示：

PF_p(t)＝GRU(M(t-1)，PF_p(t-1))p∈[1，n]。 (10)

式中，M(t-1)为t-1时刻对应的气象数据，PF_p(t-1)为t-1 时刻对应的第p个PF分量。

7.2)集成不同类别特征数据集的余项单调函数μ_k(t)，即：

μ_k(t)＝GRU(M(t-1)，μ_k(t-1))。 (11)

式中，μ_k(t-1)为t-1时刻对应的余项单调函数。

7.3)训练好的LMD-GRU神经网络模型的输出y(t)如下所示：

式中，PF_p(t)表示第p个PF分量序列，μ_k(t)表示余项单调函数，M代表气象数据，GRU表示GRU网络层的输出。8)将实时天气数据输入到训练好的LMD(Local MeanDecomposition局部均值分解)-GRU神经网络模型中，得到大气污染情况预测结果。

本发明的技术效果是毋庸置疑的。本发明目的在于提供一种基于集成的门递归单元神经网络(GRU)来预测大气污染情况的方法，以解决单模式的LSTM模型(长短期记忆网络Long Short-Term Memory)对雾霾进行回归预测中的特征学习不明显，使得模型的性能不如多模式特征学习模型强，精度低，实际预测效果不理想的问题。本发明将序列进行分解，对多模式特征学习，再将多模式学习结果进行集成，提高了预测的准确率；基于深度学习理论，搭建GRU 神经网络模型，构造简单，矩阵乘法较少，在训练数据量很大的情况下可以节省很多时间；采用了tanh函数作为GRU层的激活函数，对数据变化更为敏感。由此可见，本发明设计原理可靠，与现有技术相比，具有突出的实质性特点和显著地进步，将分解后的特征序列对预测模型进行训练，很大程度上提升了模型的预测效果。

附图说明

图1为本发明基于集成的门递归单元神经网络(GRU)来预测大气污染情况的整体流程结构图；

图2为本发明LMD分解流程图；

图3为GRU的单元细节原理图，其中输入为h_t-1，x_t，输出为h_t；

图4为测试数据在训练好的LMD-GRU模型上的预测结果。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图4，基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，主要包括以下步骤：

进一步，所述大气污染物数据集s₁₁(t)包括PM2.5浓度数据。

进一步，对历史天气数据进行预处理的主要步骤为：

1.1)在历史天气数据集中缺失数据的位置填0。

1.3)为不同类别的特征数据集添加类别编码。

3.3)计算局部极值点n_i对应的包络估计值a_i，即：

3.6)对分离后的数据集h_Ij(t)进行处理，得到解调后的数据集 s_Ij+₁(t)，即：

3.7.1)计算待处理数据集s_1j(t)的正交指数OC_1j，即：

计算待处理数据集s_1j+1(t)的正交指数OC_1j+1，即：

3.8)计算第I个PF分量的包络序列a_I(t)＝a_I1(t)a_I2(t)...a_In(t)。

大气污染物数据集s₁₁(t)第I个PF分量如下所示：

PF_I(t)＝a_I(t)s_In(t)。 (6)

3.10)令I＝I+1，返回步骤3.1，直至I＞T。

式中，p表示任意PF分量。

4)对大气污染物特征数据集和气象数据进行归一化处理。

重置门r_t＝σ(W_r·[h_t-1，x_t]+b_r)。

更新门z_t＝σ(W_z·[h_t-1，x_t]+b_z)。

候选隐含状态

隐含状态

式中，tanh为双曲正切函数。σ为sigmoid函数。W_r、W_z、W_h、 W_y分别为重置门、更新门、候选隐含状态函数和输出函数的权重矩阵。b_r、b_z、b_h、b_y为重置门、更新门、候选隐含状态函数和输出函数的偏移向量。

5.3)GRU神经网络模型输出值y_t＝σ(W_y·h_t+b_y)。

6)将归一化后的不同类别的特征数据集输入到门递归单元神经网络GRU中，输出归一化后的子模式预测值。

PF_p(t)＝GRU(M(t-1)，PF_p(t-1))p∈[1，n]。 (10)

7.2)集成不同类别特征数据集的余项单调函数μ_k(t)，即：

μ_k(t)＝GRU(M(t-1)，μ_k(t-1))。 (11)

7.3)训练好的LMD-GRU神经网络模型的输出y(t)如下所示：

式中，PF_p(t)表示第p个PF分量序列，μ_k(t)表示余项单调函数，M代表气象数据，GRU表示GRU网络层的输出。8)将实时天气数据输入到训练好的LMD-GRU神经网络模型中，得到大气污染情况预测结果。

实施例2：

本发明提出了一种基于集成的门递归单元神经网络(GRU)来预测大气污染情况的方法，该方法包括：

1)获取历史天气数据，对历史天气数据进行预处理；获取的数据来源自位于北京的美国的大使馆在2010年至2014年共5年间每小时采集的历史天气数据及空气污染指数，数据集包括日期、每小时的PM2.5浓度、露点、温度、风向、风速、降雪量和降雨量；对原始数据进行处理，数据集中分散的NA值用0来表示，将不是特征的列删除，比如时间。对类别特征进行整型编码，比如风向。全部数据集共有43799*8个数据。

2)将预处理完的历史天气数据集按照一定比例分为训练数据和测试数据；

预处理完成的数据集中，将前8760条数据(2010年天气数据) 作为训练数据集，将后35039条数据(后四年天气数据)作为测试数据集。

3)利用局部均值分解(LMD)函数对PM2.5序列数据进行多模态特征提取；

如附图2所示，找出要分解的PM2.5序列x(t)每个半波振动所有局部极值点，将所有两个相邻极值点的平均值用直线连接起来，再用滑动平均方法进行平滑处理得到局部均值函数。采用局部极值点计算包络估计值，同样，用直线将所有相邻包络估计值连接起来并采用移动平均方法进行平滑处理得到包络估计函数。接着再将局部均值函数从原始序列x(t)中分离出来，得到的残差序列除以局部包络函数得到解调后的值。重复上述步骤得到对应的局部包络函数值，并以正交性准则作为乘积函数的迭代运算过程终止判定条件，把迭代过程中产生的所有局部包络函数相乘便可得到PF分量的包络序列，将包络序列与对应的调频序列相乘便可得到原始序列的第一个 PF分量。再把PF₁从原始序列中分离出来，得到一个新信号，若不满足单调性时，重复上述步骤，直到余项为一个单调函数为止，即将原始序列分解为k个PF分量和一个单调函数之和。

4)对分解后的PM2.5数据和其他气象数据进行归一化处理；

5)为分解后的每种模式构造门递归单元神经网络(GRU)，对训练数据集进行多模态特征学习；

如附图3所示，GRU网络模型是按照时间顺序展开来的，适合处理预测时间序列间隔延迟较长的长依赖事件，模型包括：一个输入层，一个GRU隐藏层，一个输出层：

如附图4所示，GRU通过设置不同门来控制不同阶段的输入和输出。

更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选状态上，重置门越小，前一状态的信息被写入的越少。在每个建模过程中，搭建监督学习模型，利用分解后PM2.5序列的PF分量模式信息和1小时前对应的气象变量作为输入，基于深度学习理论，为每个PF分量和其余气象数据构造GRU模型，该模型是一个序列对序列(sequenceto sequence)模型，模型上有多时间点，每个时间点有多个可用的特征，通过选取固定时间步长的批大小进行训练，来进行预测PM2.5浓度的下一个模式信息。

上述过程完成了一个GRU单元的数据处理过程，其中，tanh为双曲正切函数，σ为sigmoid函数，W_r、、W₂、W_h、W_y为各个门的权重矩阵，b_r、b_z、b_h、b_y为各个门的偏移向量，需要进行训练的参数，在训练过程中自动更新。

超参选择时学习速率选择为0.001，训练次数为50次，GRU隐藏层神经元个数为50，采用Adam梯度下降算法更新模型中的权重和偏移。

模型使用平均绝对误差(MAE)损失函数。

将分解后的各种模式与其他数据进行归一化，然后每一种模式各通过神经网络输入层，输入数据为归一化后的露点、温度、大气压、风向、风速、降雪量，降雨量以及PM2.5序列分解后的子模式，输出数据为归一化后的子模式预测值。

6)采用逆LMD运算计算，进行多模态特征估计值集成；

模式分解后，GRU模型的输出数据为归一化后的子模式预测值。将这些输出的子模式预测值作为输入，进行逆LMD运算进行集成并作为最终输出。

7)使用训练完成的LMD-GRU神经网络来预测大气污染情况；

将本发明提出的LMD-GRU模型训练好之后，将之前划分好的测试数据集输入模型中，进而实现模型性能的衡量，得到的测试结果如图4所示，其中蓝色表示真实值，橙色表示测试值，由图可见，真实值与测试值的误差很小，模型可靠。

Claims

1.基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，主要包括以下步骤：

1)获取历史天气数据集，对历史天气数据集进行预处理；所述历史天气数据集包括大气污染物数据集s₁₁(t)和气象数据集。

2)将预处理后的历史天气数据集划分为训练数据集和测试数据集，并分解为不同类别的特征数据集；

3)利用局部均值分解函数LMD对大气污染物数据集s₁₁(t)进行多模态特征提取，得到大气污染物特征数据集；

4)对大气污染物特征数据集和气象数据进行归一化处理；

5)利用训练数据集建立门递归单元神经网络GRU，并利用训练数据集对门递归单元神经网络GRU进行训练；

7)采用逆LMD运算对归一化后的子模式预测值进行多模态特征估计值集成，得到训练好的LMD-GRU神经网络模型；

8)将实时天气数据输入到训练好的LMD-GRU神经网络模型中，得到大气污染情况预测结果。

2.根据权利要求1所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于：所述大气污染物数据集s₁₁(t)包括PM2.5浓度数据；

3.根据权利要求1或2所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，对历史天气数据进行预处理的主要步骤为：

1)在历史天气数据集中缺失数据的位置填0；

2)删除历史天气数据集中非特征数据列；所述非特征数据包括日期；特征数据包括大气污染物数据、露点、温度、大气压、风向、风速、降雪量和/或降雨量

3)为不同类别的特征数据集添加类别编码。

4.根据权利要求1所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，利用局部均值分解函数LMD对大气污染物数据进行多模态特征提取的主要步骤如下：

1)确定待处理数据集s_Ij(t)第I个半波振动内的所有局部极值点，并计算相邻极值点的平均值m_i，即：

式中，n_i和n_i+1表示相邻的两个极值点；i为极值点序号；1≤i≤n；n为局部极值点总数；j初始值为1；I为PF分量序列号；1≤I≤T；I初始值为1；

2)绘制平均值线段，并利用滑动平均方法对平均值线段进行平滑处理，得到局部均值函数m_1j(t)；j初始值为1；

3)计算局部极值点n_i对应的包络估计值a_i，即：

4)绘制包络估计值线段，并利用滑动平均方法对包络估计值线段进行平滑处理，得到包络估计函数a_Ij(t)；

5)将局部均值函数m_Ij(t)从待处理数据集s_Ij(t)中分离出来，得到分离后的数据集h_Ij(t)＝s_Ij(t)-m_Ij(t)；

6)对分离后的数据集h_Ij(t)进行处理，得到解调后的数据集s_Ij+1(t)，即：

7)判断解调后的数据集s_Ij+1(t)是否满足正交性准则，若否，则令j＝j+1，并返回步骤1，若是，则迭代结束；

7.1)计算待处理数据集s_1j(t)的正交指数OC_1j，即：

其中，m_Ij(t)为第I个PF分量时计算得到的第j次局部均值函数值；T为分解得到的PF分量序列总个数；

计算待处理数据集s_1j+1(t)的正交指数OC_1j+1，即：

7.2)计算正交指数差值Δ＝OC_1j+1-OC_1j，若差值Δ＝0，则判断解调后的数据集s_1j+1(t)满足正交性准则；

8)计算第I个PF分量的包络序列a_I(t)＝a_I1(t)a_I2(t)…a_In(t)；

大气污染物数据集s₁₁(t)第I个PF分量如下所示：

PF_I(t)＝a_I(t)s_In(t)； (6)

9)将第I个PF分量PF_I(t)从原始序列中分离出来，得到一个新信号μ_I(t)，当μ_I(t)不满足单调性时，重复上述步骤1至步骤8，循环k次，直到μ_k(t)为单调函数；

10)令I＝I+1，返回步骤1，直至I＞T；

11)将大气污染物数据集s₁₁(t)分解为k个PF分量和一个单调函数μ_k(t)之和，即：

式中，p表示任意PF分量。

5.根据权利要求1所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，对大气污染物特征数据集和气象数据进行归一化处理的方法为：

其中，X′表示归一化后的数据；X_max表示数据的最大值；X_min表示数据的最小值；X指代大气污染物特征数据集和气象数据集中的元素。

6.根据权利要求1所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，GRU神经网络模型包括一个输入层，一个GRU隐藏层和一个输出层；GRU神经网络模型通过门递归长短期记忆模块更新数据，一个门递归长短期记忆模块由更新门和重置门构成；更新数据主要步骤如下：

1)令t时刻的输入为X_t，隐藏层输出为h_t，上一时刻隐藏层输出为h_t-1；

2)数据通过GRU神经网络模型进行前向传播，内部各门状态具体可如下所示：

重置门r_t＝σ(W_r·[h_t-1，x_t]+b_r)；

更新门z_t＝σ(W₂·[h_t-1，x_t]+b_z)；

候选隐含状态

隐含状态

式中，tanh为双曲正切函数；σ为sigmoid函数；W_r、W_z、W_h、W_y分别表示重置门、更新门、候选隐含状态函数和输出函数的权重矩阵；b_r、b_z、b_h、b_y分别表示重置门、更新门、候选隐含状态函数和输出函数的偏移向量；

3)GRU神经网络模型输出值y_t＝σ(W_y·h_t+b_y)。

7.根据权利要求6所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，GRU神经网络模型使用平均绝对误差MAE损失函数来更新参数，MAE函数如下所示：

8.根据权利要求6所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，GRU神经网络模型采用Adam梯度下降算法更新GRU神经网络模型中的权重和偏移。

9.根据权利要求6所述的基于集成的门递归单元神经网络GRU来预测大气污染情况的方法，其特征在于，对归一化后的子模式预测值进行多模态特征估计值集成的主要步骤如下：

1)集成不同类别特征数据集的PF分量序列，第p个PF集成分量序列如下所示：

PF_p(t)＝GRU(M(t-1)，PF_p(t-1))，p∈[1，n]； (10)

2)集成不同类别特征数据集的余项单调函数μ_k(t)，即：

μ_k(t)＝GRU(M(t-1)，μ_k(t-1))； (11)

3)训练好的LMD-GRU神经网络模型的输出y(t)如下所示：

式中，PF_p(t)表示第p个PF分量序列，μ_k(t)表示余项单调函数，M代表气象数据，GRU表示GRU网络层的输出。