CN115096357A

CN115096357A - 一种基于ceemdan-pca-lstm的室内环境质量预测方法

Info

Publication number: CN115096357A
Application number: CN202210632381.XA
Authority: CN
Inventors: 赵亮; 王广文
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-23

Abstract

本发明公开了一种基于CEEMDAN‑PCA‑LSTM的室内环境质量预测方法，其包括：对室内环境质量评价得分时间序列进行自适应噪声完备集成经验模态分解，得到多个IMF模态分量和一个残差序列；利用主成分分析对分解得到的模态分量和残差序列进行数据降维，实现主成分提取；将提取的主成分与原始室内环境质量评价得分时间序列进行组合，构成数据集；将数据集输入至长短期记忆神经网络预测模型，得到室内环境质量评价得分的预测结果。与其它预测模型相比，本发明的预测方法能够提高室内环境质量的预测精度，且预测值与真实值的拟合效果更优。

Description

一种基于CEEMDAN-PCA-LSTM的室内环境质量预测方法

技术领域

本发明涉及室内环境预测领域，尤其涉及一种基于CEEMDAN-PCA-LSTM 的室内环境质量预测方法。

背景技术

随着我国经济和工业的迅速发展，环境问题的不断出现，引起了国内外学者对室内空气质量预测的关注。正如天气预报中对未来AQI进行预报的方式，进行室内环境质量的预测具有重要指导意义，可以满足室内人员的预知需求，尽早做出防范措施。在室内环境质量预测技术发展的早期，主要通过研究室内环境参数的变化规律，从而采用统计学理论进行环境质量预测。如回归分析法，通过建立回归方程分析因变量和自变量之间的数学关系。后来，随着物理学和化学等技术的发展，从空气动力学角度分析室内气体的流动规律和伴随的物理化学反应，通过数值模拟来判断室内环境质量的变化规律。这些方法在线性分析中表现较好，但对于非线性时间序列的预测表现较差。目前，针对室内环境质量易受气候、污染物的影响，并且具有非线性、非平稳的特征，神经网络成为国内外比较流行的预测方法。

但在室内环境质量预测的研究上，存在以下问题：研究者们大多是预测环境参数，如室内温度、热舒适度和PM2.5等污染物浓度，而非直接预测室内环境质量；单一神经网络模型的预测精度较差，无法达到较优的预测效果。

发明内容

本发明针对上述方法非直接预测室内环境质量及模型预测精度的问题，提供一种能够直接预测室内环境质量结果、解决目前单一神经网络模型的预测精度较差问题、使预测值与真实值的拟合效果更优的室内环境质量预测方法。

为了达到上述目的，本发明提供了一种基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，包括如下步骤：

S1：对室内环境质量评价得分时间序列进行自适应噪声完备集成经验模态分解CEEMDAN，所述自适应噪声完备集成经验模态分解CEEMDAN的过程为：

向所述室内环境质量评价得分时间序列X(t)中添加K次标准正态白噪声序列ω_i(t)，得到第i次参与分解的信号X_i(t)，所述X_i(t)的计算公式为：

X_i(t)＝X(t)+ε₀ω_i(t),(i＝1,2,…,K) (1)

其中，ε₀为所述K次标准正态白噪声序列ω_i(t)的权值；

对所述信号X_i(t)进行EMD分解，得到K个第一阶IMF分量IMF_1,i(t)的分解结果，计算所述K个第一阶IMF分量IMF_1,i(t)的平均值，作为第一次迭代过程中CEEMDAN分解的第一阶IMF分量IMF₁(t)，所述IMF₁(t)的计算公式为：

第一次迭代过程中的残差序列r₁(t)的计算公式为：

r₁(t)＝X(t)-IMF₁(t) (3)

将第j-1次迭代过程中的残差序列r_j-1(t)添加所述K次标准正态白噪声序列ω_i(t)后，继续进行EMD分解，得到第j次迭代过程中的IMF分量IMF_j(t)及残差序列r_j(t)：

r_j(t)＝r_j-1(t)-IMF_j(t) (5)

其中，IMF_j(t)为CEEMDAN分解的第j次迭代过程中的IMF分量，E₁为对添加噪声分量的残差序列进行EMD分解得到的第一阶IMF分量，E_j-1(*)为经过 EMD分解得到的第j-1次迭代过程中的IMF分量，ε_j-1为第j-1次迭代过程中向残差序列加入的白噪声序列ω_i(t)的权值系数，r_j(t)为第j次迭代过程中的残差序列；

重复执行所述迭代与分解操作，直至最终的残差序列不满足EMD分解的基本假设，得到室内环境质量评价得分时间序列经CEEMDAN分解的结果：

其中，r_n(t)为最后一次迭代与分解操作后得到的残差序列；

S2：利用主成分分析PCA对所述分解后的IMF分量IMF_j(t)和残差序列r_n(t) 进行数据降维，并提取降维后的主成分；

S3：将所述降维后的主成分与原始室内环境质量评价得分时间序列进行聚合，构成数据集；

S4：将所述数据集输入至长短期记忆LSTM神经网络预测模型，并得到室内环境质量评价得分时间序列的预测结果，所述长短期记忆LSTM神经网络预测模型为：

其中，i_t表示输入门的输出，f_t表示遗忘门的输出，o_t表示输出门的输出；C_t表示当前LSTM单元的长期记忆信息，C_t-1表示由上一LSTM单元传递的长期记忆信息；h_t表示当前LSTM单元的短期记忆信息，h_t-1表示由上一LSTM单元传递的短期记忆信息；x_t表示当前LSTM单元的输入；W_i表示输入门的权重矩阵， W_f表示遗忘门的权重矩阵，W_o表示输出门的权重矩阵；W_c表示计算当前单元的长短期记忆候选状态时的权重矩阵；b_i表示输入门的偏置值，b_f表示遗忘门的偏置值，b_o表示输出门的偏置值；b_c表示计算长短期记忆候选状态时的偏置值；σ表示sigmoid门限函数，sigmoid函数将输出值转换为0和1之间的数值，“0”表示完全舍弃，“1”表示全部保留；输入门中的σ决定哪些新信息被存放在LSTM 细胞状态中，即哪些值将要更新；遗忘门中的σ决定从LSTM细胞状态中丢弃哪些信息；输出门中的σ决定细胞状态中的哪些信息将被输出；

S5：利用性能指标考察所述基于CEEMDAN-PCA-LSTM的室内环境质量预测方法的精度。

优选方式下，所述主成分分析PCA的步骤为：

S1：对所述分解后的IMF分量IMF_j(t)和残差序列r_n(t)进行标准化处理，得到标准化数据；

S2：计算所述标准化数据的协方差矩阵；

S3：计算所述协方差矩阵的特征值λ_i和特征向量，并将所述特征值按照由大到小的顺序进行排序；

S4：根据公式(8)、(9)计算各特征值对应的方差贡献率和累计方差贡献率；

其中，λ_i为第i个特征值，τ_i为第i个特征值的方差贡献率，p_m为前m个特征值的累计方差贡献率；

S5：筛选大于方差贡献率设定值和累计方差贡献率设定值的m个特征值，并将所述m个特征值对应的特征向量作为系数矩阵，根据公式(10)计算m个主成分的值；

其中，x₁,x₂,…,x_n为原始室内环境质量评价得分时间序列，v₁,v₂,…,v_m为降维后的主成分，a_i1,a_i2,…,a_in(i＝1,2,…,m)为系数矩阵。

优选方式下，所述长短期记忆LSTM神经网络预测模型的性能指标包括：均方根误差RMSE，所述均方根误差RMSE的计算公式为(11)；平均绝对误差 MAE，所述平均绝对误差MAE的计算公式为(12)；平均绝对百分比误差MAPE，所述平均绝对百分比误差MAPE的计算公式为(13)；决定系数R²，所述决定系数R²的计算公式为(14)；

其中，y_t表示表示t时刻室内环境质量得分的真实值，

表示t时刻室内环境质量得分的预测值，

表示时间序列数据的平均值，n表示时间序列数据的总数。

优选方式下，所EMD分解的步骤为：

S1：找出信号X_i(t)的全部极值点，利用三次样条插值函数拟合极值点的上包络线u(t)和下包络线l(t)并计算上、下包络线的均值m(t)，所述均值m(t)的计算公式为：

S2：信号X_i(t)减去均值m(t)得到差值h(t)，所述差值h(t)的计算公式为：

h(t)＝X_i(t)-m(t) (16)

S3：若差值h(t)满足IMF分量的条件，则h(t)作为第一阶IMF模态分量 IMF_1,i(t)，否则重复所述计算均值m(t)、差值h(t)的步骤，直至h(t)满足IMF分量的条件。

本发明的有益效果是：本发明能够实现直接预测室内环境质量结果；避免原始室内环境质量数据的非线性、非平稳特性对预测精度的影响，解决目前单一神经网络模型的预测精度较差的问题，从而提高室内环境质量的预测精度；满足室内人员对环境质量的预知需求，以便在环境质量转向恶劣变化前尽早做出防范措施。

附图说明

图1为CEEMDAN-PCA-LSTM预测方法架构图；

图2为室内环境质量评价得分的CEEMDAN分解结果图；

图3为室内环境质量评价得分的CEEMDAN-PCA-LSTM预测结果图；

图4为各模型对室内环境质量评价得分的预测结果对比图；

图5为各模型对室内环境质量评价得分的预测性能对比图。

具体实施方式

实施例：

如图1所示，本发明提供了一种基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，包括如下步骤：

S1：对室内环境质量评价得分时间序列进行自适应噪声完备集成经验模态分解CEEMDAN，得到多个IMF模态分量和一个残差序列；具体地，所述自适应噪声完备集成经验模态分解CEEMDAN的过程为：

X_i(t)＝X(t)+ε₀ω_i(t),(i＝1,2,…,K) (1)

其中，ε₀为所述K次标准正态白噪声序列ω_i(t)的权值；

第一次迭代过程中的残差序列r₁(t)的计算公式为：

r₁(t)＝X(t)-IMF₁(t) (3)

r_j(t)＝r_j-1(t)-IMF_j(t) (5)

其中，r_n(t)为最后一次迭代与分解操作后得到的残差序列；

其中，所EMD分解的步骤为：

首先，找出信号X_i(t)的全部极值点，利用三次样条插值函数拟合极值点的上包络线u(t)和下包络线l(t)并计算上、下包络线的均值m(t)，所述均值m(t)的计算公式为：

其次，信号X_i(t)减去均值m(t)得到差值h(t)，所述差值h(t)的计算公式为：

h(t)＝X_i(t)-m(t) (8)

最后，若差值h(t)满足IMF分量的条件，则h(t)作为第一阶IMF模态分量 IMF_1,i(t)，否则重复所述计算均值m(t)、差值h(t)的步骤，直至h(t)满足IMF分量的条件。

所述CEEMDAN分解的基础为EMD分解，所述EMD分解的基本假设如下：

(1)完整时间域内的信号至少有两个极值点；

(2)信号的局部时域特性由相邻极值点的差值唯一确定；

(3)若信号无极值点，则对信号进行一次或多次微分直至出现极值点，对微分后的新信号进行分解，最后再通过积分获得分解结果。

经所述EMD分解得到的IMF分量需要满足下面两个条件：

(1)在完整时间域内，局部极值点与零点的数量相差不能超过1；

(2)局部极大值点和极小值点构成的上、下包络线的均值为0。

具体地，数据来源为2020年11月～12月在我国北方地区某学生宿舍采集的室内环境数据，测量的环境参数包括温度、湿度、CO₂、PM2.5和HCHO，每 10分钟采样1次，共计7439条记录，无缺失值。将环境数据利用模糊综合评价法进行计算，得到每条记录对应的室内环境质量评价得分。室内环境质量评价得分时间序列构成了原始数据集。

如图2所示，展示了室内环境质量评价得分数据集的CEEMDAN分解结果，实线为原始时间序列，虚线为原始时间序列分解后得到的11个模态分量IMF1～ IMF11以及1个残差序列res。每条IMF曲线都有着不同的波动幅度，且从上到下IMF曲线的波动频率逐渐降低，代表了原始时间序列中的各频率分量。

S2：利用主成分分析PCA对分解得到的模态分量和残差序列进行数据降维，实现主成分提取；

具体地，S2所述的主成分分析对室内环境质量评价得分时间序列进行标准化，消除其量纲，并且计算数据标准化后的协方差矩阵；求协方差矩阵的特征值λ_i和特征向量，并将特征值按照由大到小的顺序进行排序；根据公式(9)、公式(10)计算各特征值对应的方差贡献率和累计方差贡献率，决定需要保留的主成分的个数。一般情况下，保留累计方差贡献率超过85％的主成分。

将最大的m个特征值对应的特征向量作为系数矩阵，根据公式(11)计算m个主成分的值；

具体地，对各IMF分量以及残差序列进行主成分分析，计算各主成分对应的特征值以及方差贡献率，进而得到各主成分的累计方差贡献率为：

表1 主成分累积方差贡献率统计

由表1可以看出，前10个主成分的累计方差贡献率已经达到89.107％，可用来代替原有方案，达到数据降维的目的。但为了提高模型的预测性能，本发明保留前11个主成分，累计方差贡献率为95.537％。

S3：将提取的主成分与原始室内环境质量评价得分时间序列进行组合，构成数据集；具体地，将前11个主成分的特征向量矩阵与各IMF分量以及残差序列组成的特征矩阵进行矩阵乘法运算，得到各主成分的值，其与室内环境质量评价得分时间序列一起构成降维后的数据集。

S4：将数据集输入至长短期记忆LSTM神经网络预测模型，得到室内环境质量评价得分的预测结果；所述长短期记忆LSTM神经网络预测模型包括输入门、遗忘门和输出门。其中，输入门的作用是决定进入记忆单元的有用信息是哪些；遗忘门的作用是放弃之前无用的状态信息，不再将其输入到后续网络中；输出门的作用是控制网络的输出，决定记忆单元输出哪些信息。长短期记忆 LSTM神经网络预测模型的数学表达式如下：

其中，i_t表示输入门的输出，f_t表示遗忘门的输出，o_t表示输出门的输出；C_t表示当前LSTM单元的长期记忆信息，C_t-1表示由上一LSTM单元传递的长期记忆信息；h_t表示当前LSTM单元的短期记忆信息，h_t-1表示由上一LSTM单元传递的短期记忆信息；x_t表示当前LSTM单元的输入；W_i表示输入门的权重矩阵， W_f表示遗忘门的权重矩阵，W_o表示输出门的权重矩阵；W_c表示计算当前单元的长短期记忆候选状态时的权重矩阵；b_i表示输入门的偏置值，b_f表示遗忘门的偏置值，b_o表示输出门的偏置值；b_c表示计算长短期记忆候选状态时的偏置值；σ表示sigmoid门限函数，sigmoid函数将输出值转换为0和1之间的数值，“0”表示完全舍弃，“1”表示全部保留；输入门中的σ决定哪些新信息被存放在LSTM 细胞状态中，即哪些值将要更新；遗忘门中的σ决定从LSTM细胞状态中丢弃哪些信息；输出门中的σ决定细胞状态中的哪些信息将被输出。

具体地，长短期记忆LSTM神经网络的输入为数据集中归一化的主成分，输出为室内环境质量评价得分时间序列。在数据集中选取80％的数据作为预测模型的训练集，10％的数据作为验证集，其余10％的数据作为测试集。

为了获得最优的预测效果，针对LSTM网络选用不同的超参数进行试验，试验完成后选取效果最好的一组超参数。模型超参数的设置主要包括对时间步长、样本迭代次数epochs、批处理大小batch_size和隐藏层神经元个数的调节。其它参数如损失函数为均方误差，优化器为Adam，学习率为0.001，dropout率为2％。

具体地，在进行时间步长调节前，初始化隐藏层神经元个数为50，epochs 为32，batch_size为8，时间步长的备选集为[3,6,9,12,15,18,21,24]。具体含义为若时间步长为12，则说明将使用过去12个时刻的各主成分数据预测未来1个时刻的室内环境质量评价得分。epochs的备选集为[10,50,100,150,200,250,300]， batch_size的备选集为[8,16,32,64,128,256]，隐藏层神经元个数的备选集为 [30,40,50,100,150,200]。通过对模型超参数的调节，得到CEEMDAN-PCA-LSTM 模型的最佳超参数组合：时间步长为15，epochs为50，batch_size为16，隐藏层神经元个数为50。

如图3所示，实线为室内环境质量评价得分的真实值，虚线为预测值，可以看出，本发明提供的CEEMDAN-PCA-LSTM方法的预测值能够较好的跟踪真实值的趋势走向，预测与真实值的拟合效果较好。

为验证本发明提供的CEEMDAN-PCA-LSTM预测方法的准确性，将该方法的预测结果分别与CEEMDAN-LSTM方法、EEMD-LSTM方法、EMD-LSTM 方法和LSTM方法的预测结果进行比较。如图4所示，展示了各方法的预测结果。可以看出，各方法的预测值均能够模拟出室内环境质量评价得分真实值的变化趋势，并且CEEMDAN-PCA-LSTM方法的预测效果最好。LSTM方法出现了预测滞后的现象，表现为将时间步长窗口内的最后一个值作为了下一时刻的预测值。因此，从图形上看，预测值左移一位后几乎与真实值重合，原因在于 LSTM方法无法精确探测复杂的非线性时间序列的波动程度。加入EMD和 EEMD分解后的EMD-LSTM方法和EEMD-LSTM方法，将原始时间序列按照时间尺度分解为多个具有单一频率的IMF分量和残差序列，有效缓解了LSTM 方法预测滞后的问题，使得预测结果更合理可靠。本发明的 CEEMDAN-PCA-LSTM方法结合了CEEMDAN分解和PCA各自的优点，一方面使得经模态分解的IMF分量间不存在模态混叠现象以及重构误差，另一方面实现了特征提取和数据降维，提高了预测效果。

S5：为考察本发明提供的CEEMDAN-PCA-LSTM预测方法的精度，采用的性能指标包括：均方根误差RMSE、平均绝对误差MAE、平均绝对百分比误差 MAPE和决定系数R²，其计算如公式(13)-(16)所示：

其中，y_t表示表示t时刻室内环境质量得分的真实值，

表示t时刻室内环境质量得分的预测值，

表示时间序列数据的平均值，n表示时间序列数据的总数。

如图5所示，展示了各预测方法的预测性能比较结果。可以看出，本发明提供的CEEMDAN-PCA-LSTM模型在四项评价指标中，均具有最好的性能表现，其RMSE为0.5806，MAE为0.4334，MAPE为0.4557，R²为0.9764。相对于CEEMDAN-LSTM模型，RMSE降低了12.42％，MAE降低了4.98％，MAPE 降低了8.03％，提高了0.76％。相对于EEMD-LSTM模型，RMSE降低了30.54％， MAE降低了36.51％，MAPE降低了37.41％，R²提高了2.70％。相对于 EMD-LSTM模型，RMSE降低了33.36％，MAE降低了26.28％，MAPE降低了 29.05％，R²提高了3.16％。相对于LSTM模型，RMSE降低了27.97％，MAE 降低了13.94％，MAPE降低了13.92％，R²提高了2.33％。

由此可见，本发明提供的一种基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，预测精度最高，拟合效果更佳，具有较高的可靠性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，其特征在于，包括如下步骤：

X_i(t)＝X(t)+ε₀ω_i(t),(i＝1,2,…,K) (1)

其中，ε₀为所述K次标准正态白噪声序列ω_i(t)的权值；

第一次迭代过程中的残差序列r₁(t)的计算公式为：

r₁(t)＝X(t)-IMF₁(t) (3)

r_j(t)＝r_j-1(t)-IMF_j(t) (5)

其中，IMF_j(t)为CEEMDAN分解的第j次迭代过程中的IMF分量，E₁为对添加噪声分量的残差序列进行EMD分解得到的第一阶IMF分量，E_j-1(*)为经过EMD分解得到的第j-1次迭代过程中的IMF分量，ε_j-1为第j-1次迭代过程中向残差序列加入的白噪声序列ω_i(t)的权值系数，r_j(t)为第j次迭代过程中的残差序列；

其中，r_n(t)为最后一次迭代与分解操作后得到的残差序列；

S2：利用主成分分析PCA对所述分解后的IMF分量IMF_j(t)和残差序列r_n(t)进行数据降维，并提取降维后的主成分；

其中，i_t表示输入门的输出，f_t表示遗忘门的输出，o_t表示输出门的输出；C_t表示当前LSTM单元的长期记忆信息，C_t-1表示由上一LSTM单元传递的长期记忆信息；h_t表示当前LSTM单元的短期记忆信息，h_t-1表示由上一LSTM单元传递的短期记忆信息；x_t表示当前LSTM单元的输入；W_i表示输入门的权重矩阵，W_f表示遗忘门的权重矩阵，W_o表示输出门的权重矩阵；W_c表示计算当前单元的长短期记忆候选状态时的权重矩阵；b_i表示输入门的偏置值，b_f表示遗忘门的偏置值，b_o表示输出门的偏置值；b_c表示计算长短期记忆候选状态时的偏置值；σ表示sigmoid门限函数，sigmoid函数将输出值转换为0和1之间的数值，“0”表示完全舍弃，“1”表示全部保留；输入门中的σ决定哪些新信息被存放在LSTM细胞状态中，即哪些值将要更新；遗忘门中的σ决定从LSTM细胞状态中丢弃哪些信息；输出门中的σ决定细胞状态中的哪些信息将被输出；

2.根据权利要求1所述基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，其特征在于，所述主成分分析PCA的步骤为：

S2：计算所述标准化数据的协方差矩阵；

3.根据权利要求1所述基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，其特征在于，所述长短期记忆LSTM神经网络预测模型的性能指标包括：均方根误差RMSE，所述均方根误差RMSE的计算公式为(11)；平均绝对误差MAE，所述平均绝对误差MAE的计算公式为(12)；平均绝对百分比误差MAPE，所述平均绝对百分比误差MAPE的计算公式为(13)；决定系数R²，所述决定系数R²的计算公式为(14)；

其中，y_t表示表示t时刻室内环境质量得分的真实值，

表示t时刻室内环境质量得分的预测值，

表示时间序列数据的平均值，n表示时间序列数据的总数。

4.根据权利要求1所述基于CEEMDAN-PCA-LSTM的室内环境质量预测方法，其特征在于，所EMD分解的步骤为：

h(t)＝X_i(t)-m(t) (16)

S3：若差值h(t)满足IMF分量的条件，则h(t)作为第一阶IMF模态分量IMF_1,i(t)，否则重复所述计算均值m(t)、差值h(t)的步骤，直至h(t)满足IMF分量的条件。