CN112578089B

CN112578089B - 一种基于改进tcn的空气污染物浓度预测方法

Info

Publication number: CN112578089B
Application number: CN202011558387.4A
Authority: CN
Inventors: 林涛; 吉萌萌
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-04-07
Anticipated expiration: 2040-12-24
Also published as: CN112578089A

Abstract

本发明公开了一种基于改进TCN的空气污染物浓度预测方法，该预测方法以TCN为基础，提出一种收缩的TCN模型。收缩的TCN模型基于时间卷积的优势，网络能够保证当前信息只与历史的信息有关，并且通过空洞因子的存在可以接收更长的输入；而残差收缩路径的加入，使得网络能够达成在更多输入情况下，并能够根据不同输入样本的冗余信息各不相同，自适应产生样本阈值，有效提高了网络模型的预测能力，且不会存在未来信息的泄露。本发明预测方法做得到的预测结果接近实际值，通过与其它神经网络预测方法对比，本发明预测方法所得到的预测结果的稳定性更好，准确性更高。

Description

一种基于改进TCN的空气污染物浓度预测方法

技术领域

本发明涉及一种时间序列数据预测方法，具体说是一种基于改进TCN的空气污染物浓度预测方法。

背景技术

空气质量的好坏严重影响着人们的身体健康，也对经济社会可持续发展造成极大的威胁。因此，对于人类生活健康和国家可持续发展而言，开展环境空气质量精确预测也注定成为一项不可缺少的重要工作。我国在环境空气质量监测网络已经涵盖了国家、省、市、县四个层级，监测站点数量的突增以及监测技术的日益成熟，为空气质量预测提供了体量巨大且多种多样的数据源。其中空气污染物浓度的预测结果直接影响空气质量指数评估以及大气污染防治，因此大气污染物的预测结果准确性对于改善我国形势严峻的空气质量问题具有重要意义。

伴随着深度学***均自回归模型(AutoregressiveIntegrated Moving Average model,ARIMA)等，机器学习算法如支持向量机(SupportVector Machine,SVM)等，深度学习算法如长短期记忆网络(Long Short-Term Memory,LSTM)、反向传播网咯(Back Propagation Network,BP)等。使用统计模型方法虽然较为通用，计算简单，但是面临滞后性问题，无法适应复杂的数据环境，精确度一般。而相较于经典的机器学习算法，深度学习在大数据上表现的更为优秀，可以通过使用更多的数据来更好的扩展，不需要特征工程，适应能力强，易于转换。而经过大量的研究表明，深度网络在语音，自然语言等许多领域已经实现了远超过机器学习方法的精确度。因此本文通过对深度学习在时间序列数据处理中的应用研究，发现由Colin Lea提出的时间卷积网络(TemporalConvolutional Network，TCN)模型在多个时间序列数据集都有着优异表现，相较于当前热门的LSTM更适合较长历史记录的领域。但TCN模型并未广泛运用在空气污染物预测相关的领域，时间卷积网络的潜力还尚待发掘。

发明内容

为了实现对空气污染物更加高效精确的预测，本发明提出一种基于改进TCN的空气污染物浓度预测方法，该预测方法以TCN为基础，提出一种改进的收缩的时间卷积网络(Shrinking Temporal Convolutional Network，STCN)模型。该模型能够根据各个样本中冗余信息含量不同而自适应的产生相应阈值，解决传统预测算法的各个样本冗余因素过多，预测精度不够等问题。

本发明解决所述技术问题的技术方案为：设计一种基于改进TCN的空气污染物浓度预测方法，其特征在于，该预测方法的具体实施步骤如下：

步骤一：将一种空气污染物浓度历史数据时间序列按一定时间间隔选取数据点，得到训练集的原始空气污染物浓度时间序列；训练集中的时间长度不少于一年；

步骤二：建立改进的TCN神经网络模型

2.1令训练集的原始空气污染物浓度时间序列为σ，设定TCN神经网络的输入为X_σ＝(σ₁，σ₂...σ_h)，其中，h为神经网络输入数据的维度，表示在待预测的空气污染物浓度数据点对应时刻点之前的原始空气污染物浓度序列数据点的个数；由训练集的原始空气污染物浓度时间序列σ得到多组X_σ；TCN神经网络的输出为

表示第h+1时刻的预测数据；

2.2根据预设的神经网络输入数据的维度，将一个h维度的污染物浓度时间序列X_σ输入到TCN神经网络的一维全卷积层；一维全卷积层网络采用因果卷积；

假设卷积核f：{0，...，k-1}→R，则一个h个维度的污染物浓度时间序列X_σ中某个元素σ_t的输出为：

上式中，σ_t表示输入序列中的某个元素，即X_σ中第t(1≤t≤h)时刻的污染物浓度数据，σ_t-i表示卷积的方向；

对一个h维度的污染物浓度时间序列X_σ中的每一个元素进行如公式(1)所示的操作，得到该X_σ的总体输出C(X_σ)；

2.3构建残差收缩网络，残差收缩网络由串联的j个残差收缩网络块构成，一个残差收缩网络块包括l个残差收缩块，l个残差收缩块依次串联构成一个残差收缩网络块，每一个残差收缩块均包含一个空洞因果卷积模块和残差收缩路径模块，将空洞因果卷积模块的输入和残差收缩路径模块的输出进行跳跃连接，得到该残差收缩块的输出；第一个残差收缩块(底层)的输入为步骤2.2中的一维全卷积层的输出C(X_σ)，最后一个残差收缩块(顶层)的输入为倒数第二个残差收缩块的输出，最后一个残差收缩块的输出为残差收缩网络块的输出；

空洞因果卷积模块由两组空洞因果卷积层、归一化层、激活函数Relu操作层、Dropout层按顺序由底层往上层依次衔接而成；将第一个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为第二个空洞因果卷积层的输入，将第二个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为该空洞因果卷积模块的输出，每一个空洞因果卷积层只包含一层空洞因果卷积网络；一个空洞因果卷积模块中的两个空洞因果卷积层的空洞因子d_i相同，每一个残差收缩块中的空洞因果卷积模块结构相同，卷积核大小都相同，不同残差收缩块的空洞因子d_i不同，d_i∈[d₁，…，d_l]，i对应第i个残差收缩块；

对于第一个残差收缩网络块第一个残差收缩块(底层)，将步骤2.2中一个X_σ的总体输出C(X_σ)作为其空洞因果卷积模块的输入样本，首先经过第一个空洞因果卷积层；在空洞因果卷积层上将使用上一层t和t-d_i时刻的数据，来预测当前层t时刻的数据，若t-d_i时刻的数据在输入样本中不存在，则以0替补；那么第一个空洞因果卷积层的输出结果如下：

其中

表示X_σ中的第t-d₁时刻的污染物浓度数据经过一维全卷积层后的输出，C(σ_t)同理，d₁为第一个残差收缩块的空洞因果卷积模块的两层空洞因果卷积层的空洞因子；权重设为F(W)＝(W⁽¹⁾，W⁽²⁾)，W⁽¹⁾、W⁽²⁾是一组针对于该空洞因果卷积层卷积核的权重，W⁽¹⁾、W⁽²⁾的初始值是由Glorot均匀分布初始化方法生成；

是偏移量，b的初始值为0，f表示一个非线性激活函数，在该网络中采用Relu函数，下同；

则第二个空洞因果卷积层的输出为：

为第一个空洞因果卷积层输出中的t-d₁时刻数据经归一化层、激活函数Relu操作层、Dropout层处理后得到的结果，

同理；

将第二个空洞因果卷积层的输出经归一化层、激活函数Relu操作层、Dropout层处理后，得到第一个残差收缩块的空洞因果卷积模块的输出

对一维全卷积的输出C(X_σ)中的h个时刻的每个数据进行如公式(2)、公式(3)中的操作，得到总体输出E(X_σ)^(1，1)，以下简写为E^(1，1)；

将第一个残差收缩块的空洞因果卷积模块的输出E^(1，1)作为第一个残差收缩块的残差收缩路径模块的输入，残差收缩路径模块首先对输出E^(1，1)求绝对值，经过全局均值池化(Global Average Pooling，GAP)处理后，获得一个E^(1，1)的特征值，记为A^(1，1)；将特征值记为A^(1，1)输入到残差第一全连接网络层中，然后将残差第一全连接网络层的输出批处理归一化到0-1之间，再依次经过激活函数Relu处理、残差第二全连接层和激活函数Sigmoid处理后，获得一个系数，记为α^(1，1)；令残差收缩路径模块的自适应阈值为τ，对空洞因果卷积模块的输出E^(1，1)进行软阈值化处理，得到残差收缩路径模块的输出

上式中，τ＝α^(1，1)×A^(1，1)；

将第一个残差收缩块的空洞因果卷积模块的输入和残差收缩路径模块的输出进行跳跃连接，得到第一个残差收缩网络块的第一个残差收缩块的输出：

其中，V和e表示跳跃连接的一组权重与偏移量；

同理，对于第一个残差收缩网络块第二个残差收缩块，其输出为：

为第一个残差收缩网络块的第二个残差收缩块的残差收缩路径模块的输出；

同理，对于第一个残差收缩网络块第l个残差收缩块，其输出为：

S^(1，l-1)为第一个残差收缩网络块第l-1个残差收缩块的输出，

为第一个残差收缩网络块第l个残差收缩块的残差收缩路径模块的输出；

若残差收缩网络块为多个，则将多个残差收缩网络块依次串联，将前一个残差收缩网络块输出作为后一个残差收缩网络块的输入；同理，得到第二个残差收缩网络块的第一个残差收缩块的输出为：

为第二个残差收缩网络块的第一个残差收缩块的残差收缩路径模块的输出；

同理，得到第j个残差收缩网络块第l个残差收缩块的输出：

S^(j，l-1)为第j个残差收缩网络块第l-1个残差收缩块的输出，

为第j个残差收缩网络块第l个残差收缩块的残差收缩路径模块的输出；

S^(j，l)即为残差收缩网络的输出；

2.4将残差收缩网络块的最顶层的残差收缩块的输出S^(j，l)输入到TCN神经网络的外层的全连接层中，外层的全连接层将最顶层的残差收缩块的输出进行综合，得到最后的预测结果

其中，g表示激活函数Linear，J和c表示外层的全连接层的一组权重和偏移量；

步骤三：对改进的TCN神经网络模型的网络参数的训练；

将由多组X_σ分别得到的预测结果与真实数据的均值平方误差MSE作为损失函数：

其中，y_i表示真实值，

表示预测值，n为预测的数据点个数；

网络中的所有的权重参数初始值由Glorot均匀分布方法生成，偏移量初始值设为0；采用Adam优化器，使该损失函数的值减小直至迭代次数达到设定值，把最后一次迭代得到的各权重和偏移量参数的值作为最优值；

步骤四：将步骤三中得到的各权重和偏移量参数的最优值代入到改进的TCN神经网络模型中，利用训练集的原始空气污染物浓度时间序列中的最后h个数据点，根据步骤二中的步骤2.2到步骤2.4，得到训练集的原始空气污染物浓度时间序列之后的第一个时刻点的预测污染物浓度数据；将获得的预测污染物浓度数据顺接在原始空气污染物浓度时间序列σ的末位之后并将其作为新的原始空气污染物浓度时间序列，选取新的原始空气污染物浓度时间序列最后的h个数据点，重复步骤二中的步骤2.2到步骤2.4，得到训练集的原始空气污染物浓度时间序列之后的第二个时刻点的预测污染物浓度数据；后续时刻点的预测污染物浓度参照此过程，依次获得。

与现有技术相比，本发明有益效果在于：本发明预测方法以TCN为基础，提出一种收缩的TCN模型。收缩的TCN模型基于时间卷积的优势，网络能够保证当前信息只与历史的信息有关，并且通过空洞因子的存在可以接收更长的输入，而残差收缩路径的加入，使得网络能够达成在更多输入情况下，并能够根据不同输入样本的冗余信息各不相同，自适应产生样本阈值，有效提高了网络模型的预测能力，且不会存在未来信息的泄露。本发明预测方法做得到的预测结果接近实际值，通过与其它神经网络预测方法对比，本发明预测方法所得到的预测结果的稳定性更好，准确性更高。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1为本发明预测方法一种实施例的改进的TCN神经网络模型结构示意图；

图2为本发明预测方法一种实施例的残差收缩网络块的一个残差收缩块的结构示意图。

图3为本发明预测方法一种实施例的残差收缩块中的空洞因果卷积模块的空洞因果卷积层的结构示意图；其中，图3(a)为空洞因子为1的空洞因果卷积层，图3(b)为空洞因子为2的空洞因果卷积层。

图4为采用本发明预测方法对北京2018年一月份744个时刻点的PM10浓度预测值与实际值的对比图。

图5为采用BP网络预测方法对北京2018年一月份744个时刻点的PM10浓度预测值与实际值的对比图。

图6为采用LSTM网络预测方法对北京2018年一月份744个时刻点的PM10浓度预测值与实际值的对比图。

图7为采用WaveNet网络预测方法对北京2018年一月份744个时刻点的PM10浓度预测值与实际值的对比图。

图8为采用改进前的TCN网络预测方法对北京2018年一月份744个时刻点的PM10浓度预测值与实际值的对比图。

图9为选定平方绝对误差(MAE)、平方绝对值百分比误差(MAPE)、平方均方误差(MSE)、均方根误差(RMSE)和决定系数(R²)五个评价指标来对本发明预测方法(用STCN表示)、BP网络预测方法(用BP表示)、LSTM网络预测方法(用LSTM表示)、WaveNet网络预测方法(用WaveNet表示)、改进前的TCN网络预测方法(用TCN表示)的预测结果进行评价的对比图。

具体实施方式

为了更加清晰的阐述本发明的技术方案，下面结合附图及实例，对本发明进一步详细描述。本发明的实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

本发明提供一种基于改进TCN的空气污染物浓度预测方法(简称预测方法，参见图1-4)，该预测方法的具体实施步骤如下：

步骤二：建立改进的TCN神经网络模型

2.1令训练集的原始空气污染物浓度时间序列为σ，设定TCN神经网络的输入为X_σ＝(σ₁，σ₂...σ_h)，其中，h为神经网络输入数据的维度，表示在待预测的空气污染物浓度数据点对应时刻点之前的原始空气污染物浓度序列数据点的个数(1，2...h是指按顺序选取，不指代具体时刻点)。由训练集的原始空气污染物浓度时间序列σ得到多组X_σ。TCN神经网络的输出为

表示第h+1时刻的预测数据。

2.2根据预设的神经网络输入数据的维度，将一个h维度的污染物浓度时间序列X_σ输入到TCN神经网络的一维全卷积层；一维全卷积层网络采用因果卷积，可以保证预测时刻h+1的数值只与历史时刻数据有关。

上式中，σ_t表示输入序列中的某个元素，即X_σ中第t(1≤t≤h)时刻的污染物浓度数据，σ_t-i表示卷积的方向。

对一个h维度的污染物浓度时间序列X_σ中的每一个元素进行如公式(1)所示的操作，得到该X_σ的总体输出C(X_σ)。

2.3构建残差收缩网络，残差收缩网络由串联的j个残差收缩网络块构成，一个残差收缩网络块包括l个残差收缩块，l个残差收缩块依次串联构成一个残差收缩网络块，每一个残差收缩块均包含一个空洞因果卷积模块和残差收缩路径模块，将空洞因果卷积模块的输入和残差收缩路径模块的输出进行跳跃连接，得到该残差收缩块的输出；第一个残差收缩块(底层)的输入为步骤2.2中的一维全卷积层的输出C(X_σ)，最后一个残差收缩块(顶层)的输入为倒数第二个残差收缩块的输出，最后一个残差收缩块的输出为残差收缩网络块的输出。

空洞因果卷积模块由两组空洞因果卷积层、归一化层、激活函数Relu操作层、Dropout层按顺序由底层往上层依次衔接而成。将第一个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为第二个空洞因果卷积层的输入，将第二个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为该空洞因果卷积模块的输出，每一个空洞因果卷积层只包含一层空洞因果卷积网络；一个空洞因果卷积模块中的两个空洞因果卷积层的空洞因子d_i相同，每一个残差收缩块中的空洞因果卷积模块结构相同，卷积核大小都相同，不同残差收缩块的空洞因子d_i不同，d_i∈[d₁，…，d_l]，i对应第i个残差收缩块。

对于第一个残差收缩网络块第一个残差收缩块(底层)，将步骤2.2中一个X_σ的总体输出C(X_σ)作为其空洞因果卷积模块的输入样本，首先经过第一个空洞因果卷积层，空洞因子的引入能够确保模型在不改变卷积核大小的情况下也能接受更长的输入。在空洞因果卷积层上将使用上一层t和t-d_i时刻的数据，来预测当前层t时刻的数据，若t-d_i时刻的数据在输入样本中不存在，则以0替补。那么第一个空洞因果卷积层的输出结果如下：

其中

表示X_σ中的第t-d₁时刻的污染物浓度数据经过一维全卷积层后的输出，C(σ_t)同理，d₁为第一个残差收缩块的空洞因果卷积模块的两层空洞因果卷积层的空洞因子；权重设为F(W)＝(W⁽¹⁾，W⁽²⁾)，W⁽¹⁾、W⁽²⁾是一组针对于该空洞因果卷积层卷积核的权重，W⁽¹⁾、W⁽²⁾的初始值是由网络中Glorot均匀分布初始化方法生成；

则第二个空洞因果卷积层的输出为：

同理。

对一维全卷积的输出C(X_σ)中的h个时刻的每个数据进行如公式(2)、公式(3)中的操作，得到总体输出E(X_σ)^(1，1)，以下简写为E^(1，1)。

上式中，τ＝α^(1，1)×A^(1，1)。通过软阈值化，网络将与当前输入样本任务无关的特征，置为0；将有关的特征，保留下来。

其中，V和e表示跳跃连接的一组权重与偏移量。残差收缩网络中的跳跃连接是为了能够保证网络性能不会因为反向传播的梯度问题而退化。

为第一个残差收缩网络块的第二个残差收缩块的残差收缩路径模块的输出。

为第一个残差收缩网络块第l个残差收缩块的残差收缩路径模块的输出。

若残差收缩网络块为多个，则将多个残差收缩网络块依次串联，将前一个残差收缩网络块(朝底层方向为前)输出作为后一个残差收缩网络块(朝顶层方向为后)的输入。同理，得到第二个残差收缩网络块的第一个残差收缩块的输出为：

为第二个残差收缩网络块的第一个残差收缩块的残差收缩路径模块的输出。

同理，得到第j个残差收缩网络块第l个残差收缩块的输出：

S^(j，l-1)为第j个残差收缩网络块第l-1个残差收缩块的输出，

为第j个残差收缩网络块第l个残差收缩块的残差收缩路径模块的输出。

S^(j，l)即为残差收缩网络的输出。

其中，g表示激活函数Linear，J和c表示外层的全连接层的一组权重和偏移量。

步骤三：对改进的TCN神经网络模型的网络参数的训练。

其中，y_i表示真实值，

表示预测值，n为预测的数据点个数；

网络中的所有的权重参数初始值由Glorot均匀分布方法生成，偏移量初始值设为0。采用Adam优化器，使该损失函数的值减小直至迭代次数达到设定值，把最后一次迭代得到的各权重和偏移量参数的值作为最优值。

采用Adam优化器根据损失函数对各权重和偏移量参数的值进行优化为现有技术，其优化过程为：

1)参数设置

设置步长∈，默认为0.001；设置矩估计的指数衰减速率ρ₁和ρ₂，ρ₁和ρ₂在区间[0，1)内，默认分别为0.9和0.999；设置用于数值稳定的小常数δ，默认为10^-8；迭代次数为100；

2)迭代计算

(1)初始化网络中权重和偏移量参数，设为θ[θ₀，…，θ_j]，该网络中权重使用Glorot均匀分布方法生成，偏移量初始值都为0。初始化一阶和二阶矩变量s＝0，r＝0。初始化时间t＝0

(2)选取训练集中的m组样本{X_σ ⁽¹⁾，…，X_σ ^(m)}的数据，对应目标为训练集的预测输出{Y⁽¹⁾，…Y^(m)}。

计算梯度：

(对θ中逐元素应用操作)

其中，

表示X_σ ⁽ⁱ⁾在网络中的预测输出，Y⁽ⁱ⁾表示真实值。

(3)t＝t+1 (11)

更新有偏一阶矩估计：s＝ρ₁s+(1-ρ₁)g (12)

更新有偏二阶矩估计：r＝ρ₂r+(1-ρ₂)g⊙g (13)

修正一阶矩的偏差：

修正二阶矩的偏差：

计算更新：

(对θ中逐元素应用操作) (16)

应用更新：θ＝θ+Δθ (17)

(4)重复步骤(2)(3)，直至迭代次数达到100，把最后一次迭代得到的各权重和偏移量参数的值作为最优值。

实施例1

本实施例提供一种基于改进TCN的空气污染物浓度预测方法，该方法的具体步骤如下：

步骤一：选用北京的PM10浓度历史数据时间序列，将2016-2017两年的PM10浓度历史数据时间序列按每间隔1h选取浓度数据点，得到训练集的原始PM10浓度时间序列；

步骤二：建立改进的TCN神经网络模型

2.1令训练集的原始PM10浓度时间序列为σ，设定TCN神经网络的输入为X_σ＝(σ₁，σ₁，σ₂…σ₆)，输出为

表示第7时刻的预测PM10浓度数据。神经网络输入数据的维度为6，表示在待预测的PM10浓度数据点对应时刻点之前的原始PM10浓度时间序列数据点的个数。由训练集的原始PM10浓度时间序列σ得到多组X_σ。

2.2根据预设的神经网络输入数据的维度，将一个6个维度的PM10浓度时间序列X_σ输入到TCN神经网络的一维全卷积层；一维全卷积层网络采用因果卷积，可以保证预测时刻7的数值只与历史时刻数据有关。

假设卷积核f：{0，...，k-1}→R，则一个6个维度的PM10浓度时间序列X_σ中某个元素σ_t的输出为：

上式中，σ_t表示输入序列中的某个元素，即X_σ中第t(1≤t≤6)时刻的PM10浓度数据，σ_t-i卷积的方向。

对一个6个维度的PM10浓度时间序列X_σ中的每一个元素进行如公式(1)所示的操作，得到该X_σ的总体输出C(X_σ)。

2.3构建残差收缩网络，残差收缩网络由两个残差收缩网络块串联构成，每一个残差收缩网络块包括3个残差收缩块，3个残差收缩块依次串联，每一个残差收缩块均包含一个空洞因果卷积模块和残差收缩路径模块，将空洞因果卷积模块的输入和残差收缩路径模块的输出进行跳跃连接，得到该残差收缩块的输出；第一个残差收缩块(底层)的输入为步骤2.2中的一维全卷积层的输出C(X_σ)，最后一个残差收缩块(顶层)的输入为倒数第二个残差收缩块的输出，最后一个残差收缩块的输出为残差收缩网络块的输出。空洞因果卷积模块由两组空洞因果卷积层、归一化层、激活函数Relu操作层、Dropout层按顺序由底层往上层依次衔接而成。将第一个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为第二个空洞因果卷积层的输入，将第二个空洞因果卷积层的输出经过归一化层、激活函数Relu操作层、Dropout层处理后的数据作为该空洞因果卷积模块的输出。归一化层均采用(0，1)标准化，Dropout层的丢弃率都为0.05。

两个残差收缩网络块结构相同，每一个残差收缩网络块的3个残差收缩块中的空洞因果卷积模块的空洞因子d_i∈[1，2，4]，权重F(W)＝(W⁽¹⁾，W⁽²⁾)的初始值在网络由Glorot均匀分布方法初始化。

是偏移量，在网络中初始值设为0，f表示一个非线性激活函数，在该网络中采用ReLU函数，那么第一个残差收缩网络块的第一个残差收缩块中的空洞因果卷积模块中第一层空洞因果卷积层的输出为：

其中

表示X_σ中的第t-1时刻的PM10浓度数据经过一维全卷积层后的输出，C(σ_t)同理，空洞因子为1；

则第二个空洞因果卷积层的输出为：

为第一个空洞因果卷积层输出中的t-1时刻数据经归一化层、激活函数Relu操作层、Dropout层处理后得到的结果，

同理。

对一维全卷积的输出C(X_σ)中的6个时刻的每个数据进行如公式(2)、公式(3)中的操作，得到总体输出E(X_σ)^(1，1)，以下简写为E^(1，1)。

其中，V和e表示跳跃连接的一组权重与偏移量，设置为1和0。残差收缩网络中的跳跃连接是为了能够保证网络性能不会因为反向传播的梯度问题而退化。

第一个残差收缩网络块的第二个残差收缩块中的第一个空洞因果卷积层的输出为：

其中

表示第一个残差收缩网络块的第二个残差收缩块输出中的t-2时刻数据，

同理，空洞因子为2。

第一个残差收缩网络块的第二个残差收缩块中的第二个空洞因果卷积层的输出为：

为第二个残差收缩块中第一个空洞因果卷积层输出中的t-2时刻数据经归一化层、激活函数Relu操作层、Dropout层处理后得到的结果，

同理。

同理，第一个残差收缩网络块的第二个残差收缩块的输出为：

同理，第一个残差收缩网络块的第三个残差收缩块的输出为：

为第一个残差收缩网络块的第三个残差收缩块的残差收缩路径模块的输出。

同理，第二个残差收缩网络块的第一个残差收缩块的输出为：

第二个残差收缩网络块的第二个残差收缩块的输出为：

为第二个残差收缩网络块的第二个残差收缩块的残差收缩路径模块的输出。

第二个残差收缩网络块的第三个残差收缩块的输出为：

为第二个残差收缩网络块的第三个残差收缩块的残差收缩路径模块的输出。

S^(2，3)即为残差收缩网络的输出。

2.4将残差收缩网络的输出S^(2，3)输入到TCN神经网络的外层的全连接层中，外层的全连接层将最顶层的残差收缩块的输出进行综合，得到最后的预测结果

步骤三：对改进的TCN神经网络模型的网络参数的训练。

其中，y_i表示真实值，

表示预测值，n为预测的数据点个数；

网络中的所有的权重参数初始值由Glorot均匀分布方法生成，偏移量初始值设为0。采用Adam优化器，使该损失函数的值减小直至迭代次数达到100，把最后一次迭代得到的各权重和偏移量参数的值作为最优值。

步骤四：将步骤三中得到的各权重和偏移量参数的最优值代入到改进的TCN神经网络模型中，利用训练集的原始PM10浓度时间序列中的最后6个数据点，根据步骤二中的步骤2.2到步骤2.4，得到2018年一月份的第一天的第一个时刻点的预测PM10浓度数据；将获得的预测PM10浓度数据顺接在原始PM10浓度时间序列σ的末位之后并将其作为新的原始PM10浓度时间序列，选取新的原始PM10浓度时间序列最后的6个数据点，重复步骤二中的步骤2.2到步骤2.4，得到2018年一月份的第一天的第二个时刻点的预测PM10浓度数据；后续时刻点的预测PM10浓度参照此过程，依次获得2018年一月份的744个时刻点的预测PM10浓度数据。

根据本发明预测方法，得到2018年一月份744个时刻点的PM10浓度预测值；将2018年一月份744个时刻点的PM10浓度的实际值作为测试集；2018年一月份的预测的744个时刻点的PM10浓度数据

与测试集中的实际数据y_i进行对比，如图4所示(本发明预测方法所得预测数据用STCN表示，实际数据y_i用Actual表示，下同)；

对同样的训练集和测试集，采用BP网络预测方法(用BP表示)、LSTM网络预测方法(用LSTM表示)、WaveNet网络预测方法(用WaveNet表示)、改进前的TCN网络预测方法(用TCN表示)分别进行预测，该四种预测方法的结果与测试集中的实际数据y_i的对比图见图5-8。

选定平方绝对误差(MAE)、平方绝对值百分比误差(MAPE)、平方均方误差(MSE)、均方根误差(RMSE)和决定系数(R²)五个评价指标来对本发明预测方法(用STCN表示)、BP网络预测方法(用BP表示)、LSTM网络预测方法(用LSTM表示)、WaveNet网络预测方法(用WaveNet表示)、改进前的TCN网络预测方法(用TCN表示)的预测结果进行评价。具体计算公式为：

数值越小说明预测越准确；

数值越小说明预测越准确；

数值越小说明预测越准确；

数值越小说明预测越准确；

数值越大说明预测越准确；

其中，y_i表示真实值，

表示预测值，

为真实值y_i的平均值。

五种预测方法的五种评价指标的对比如图9所示，结果显示，本发明预测方法所得结果更接近实测PM10浓度，通过与其它神经网络预测方法对比，本发明预测方法所得到的预测结果的稳定性更好，准确性更高。

本发明未述及之处适用于现有技术。

Claims

1.一种基于改进TCN的空气污染物浓度预测方法，其特征在于，该预测方法的具体实施步骤如下：

步骤二：建立改进的TCN神经网络模型

2.1令训练集的原始空气污染物浓度时间序列为σ，设定TCN神经网络的输入为X_σ＝(σ₁,σ₂…σ_h),其中，h为神经网络输入数据的维度，表示在待预测的空气污染物浓度数据点对应时刻点之前的原始空气污染物浓度序列数据点的个数；由训练集的原始空气污染物浓度时间序列σ得到多组X_σ；TCN神经网络的输出为

表示第h+1时刻的预测数据；

假设卷积核f:{0,…,k-1}→R，则一个h个维度的污染物浓度时间序列X_σ中某个元素σ_t的输出为：

上式中，σ_t表示输入序列中的某个元素，即X_σ中第t时刻的污染物浓度数据，σ_t-i表示卷积的方向；

2.3构建残差收缩网络，残差收缩网络由串联的j个残差收缩网络块构成，一个残差收缩网络块包括l个残差收缩块，l个残差收缩块依次串联构成一个残差收缩网络块，每一个残差收缩块均包含一个空洞因果卷积模块和残差收缩路径模块，将空洞因果卷积模块的输入和残差收缩路径模块的输出进行跳跃连接，得到该残差收缩块的输出；第一个残差收缩块的输入为步骤2.2中的一维全卷积层的输出C(X_σ)，最后一个残差收缩块的输入为倒数第二个残差收缩块的输出，最后一个残差收缩块的输出为残差收缩网络块的输出；

对于第一个残差收缩网络块第一个残差收缩块，将步骤2.2中一个X_σ的总体输出C(X_σ)作为其空洞因果卷积模块的输入样本，首先经过第一个空洞因果卷积层；在空洞因果卷积层上将使用上一层t和t-d_i时刻的数据，来预测当前层t时刻的数据，若t-d_i时刻的数据在输入样本中不存在，则以0替补；那么第一个空洞因果卷积层的输出结果如下：

其中

表示X_σ中的第t-d₁时刻的污染物浓度数据经过一维全卷积层后的输出，C(σ_t)同理，d₁为第一个残差收缩块的空洞因果卷积模块的两层空洞因果卷积层的空洞因子；权重设为F(W)＝(W⁽¹⁾,W⁽²⁾)，W⁽¹⁾、W⁽²⁾是一组针对于该空洞因果卷积层卷积核的权重，W⁽¹⁾、W⁽²⁾的初始值是由Glorot均匀分布初始化方法生成；

则第二个空洞因果卷积层的输出为：

同理；

对一维全卷积的输出C(X_σ)中的h个时刻的每个数据进行如公式(2)、公式(3)中的操作，得到总体输出E(X_σ)^(1,1),以下简写为E^(1,1)；

将第一个残差收缩块的空洞因果卷积模块的输出E^(1,1)作为第一个残差收缩块的残差收缩路径模块的输入，残差收缩路径模块首先对输出E^(1,1)求绝对值，经过全局均值池化处理后，获得一个E^(1,1)的特征值，记为A^(1,1)；将特征值记为A^(1,1)输入到残差第一全连接网络层中，然后将残差第一全连接网络层的输出批处理归一化到0-1之间，再依次经过激活函数Relu处理、残差第二全连接层和激活函数Sigmoid处理后，获得一个系数，记为α^(1,1)；令残差收缩路径模块的自适应阈值为τ，对空洞因果卷积模块的输出E^(1,1)进行软阈值化处理，得到残差收缩路径模块的输出