CN110348624B

CN110348624B - 一种基于Stacking集成策略的沙尘暴等级预测方法

Info

Publication number: CN110348624B
Application number: CN201910598794.9A
Authority: CN
Inventors: 仁庆道尔吉; 张唯铭; 邱莹; 郑碧莹
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2020-12-29
Anticipated expiration: 2039-07-04
Also published as: CN110348624A

Abstract

一种基于Stacking集成策略的沙尘暴等级预测方法，以循环神经网络R和卷积神经网络C作为一级分类器，将原始天气样本数据分别输入循环神经网络R和卷积神经网络C，得到对应的一级学习特征；利用Stacking集成策略，引入一个元分类器Q作为二级分类器，将所述一级学习特征组合并作为二级分类器的输入；以二级分类器的输出作为最终预测的沙尘暴等级量。本发明融合了RNN的时序数据处理能力和CNN的高维特征提取能力，具有更广泛的预测角度和更好的泛化能力，默认激活函数的选择可提升模型的灵活性和泛化能力，1*1卷积核代替全连接层，可整合更多的特征，提供更好的泛化性能，采用L2正则化和Batch‑Normalization或Dropout技术，提高了各级分类器的泛化能力以及整体分类器预测准确度和精度。

Description

一种基于Stacking集成策略的沙尘暴等级预测方法

技术领域

本发明属于计算机技术领域，特别涉及一种基于Stacking集成策略的沙尘暴等级预测方法。

背景技术

沙尘暴作为一种自然灾害，在干旱和半干旱地区频发，早在距7000万年前，地球上就有沙尘暴现象。自近代以来，由于水土流失，土地荒漠化，植被破坏等环境原因，我国北方，特别是西北区域沙尘暴发生数量明显上升，沙尘暴对人们生产生活的影响越来越大。

传统的气象预报天气预报是根据气象观测资料，应用天气学、动力气象学、统计学的原理和方法，对某区域或某地点未来一定时段的天气状况作出定性或定量的预测。在先前几十年中，气象预报技术和机制得到了长足发展，但到了近期，传统方法已很久没有取得质的飞跃。随着气象信息化建设越来越完善，提高普通气象和危害性气象预测的准确率逐渐成为现今相关领域研究的热点方向。由于沙尘暴发生原因的复杂性和气象数据的数量巨大，普通的神经网络对此或难以拟合，或难以泛化。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于Stacking集成策略的沙尘暴等级预测方法，采用集成深度神经网络对沙尘暴气象等级进行建模并预测，并具体采用循环神经网络R作为一个一级分类器，采用卷积神经网络C作为另一个一级分类器，对上述一级分类器，尽可能提高其预测预测性能，即提高其特征提取能力，并提供一个能较好利用上述一级分类器R提取的时序特征和一级分类器C提取的高维数据特征的二级元分类器模型，以及提供一种有效的，能使提取的特征充分融合的集成方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于Stacking集成策略的沙尘暴等级预测方法，包括：

以循环神经网络R和卷积神经网络C作为一级分类器，将原始天气样本数据分别输入循环神经网络R和卷积神经网络C，得到对应的一级学习特征；

利用Stacking集成策略，引入一个元分类器Q作为二级分类器，将所述一级学习特征组合并作为二级分类器的输入；

以二级分类器的输出作为最终预测的沙尘暴等级量。

所述原始天气样本数据通过如下方式获取：

将“中国地面气候资料日值数据集”和“中国强沙尘暴序列及其支撑数据集”根据日期整合为一个整体数据集；

将所述整体数据集进行数据清洗，属性规约等数据预处理；

将预处理的数据进行时序排列，属性从左到右展开，时序从上到下排列，并为每一个数据打上沙尘暴等级标签，最终得到原始天气样本数据。

本发明利用所述循环神经网络R提取原始天气样本数据的时序特征，利用所述卷积神经网络C提取原始天气样本数据的高维特征，用元分类器融合两个深度神经网络的优点，取得良好的泛化预测分类性能。

具体可将m个原始天气样本数据随机切分为k个样本集合，从中枚举每一个样本集合S_i，i≤k，将剩余的样本集合作为训练集，分别对两个一级分类器进行训练，训练好的一级分类器基模型表示为C_i和R_i，将其对应的样本集合S_i进行沙尘暴等级预测，每个基模型对第i个训练样本集合的预测值将作为新样本集中第i个样本的一个特征值，并将所有的特征值组合成新的特征样本，最后利用该特征样本作为训练集进行二级分类器的训练；对于预测过程，先由所有一级分类器预测形成特征样本集，最后再对特征样本集进行预测，从而得到更好的预测效果。

所述一级分类器和二级分类器的前馈神经网络通过以下公式进行信息传播：

a^(l)＝f_l(W^(l)·a^(l-1)+b^(l))

其中，a^(l)表示l层神经元的输出，f_l表示l层神经元的激活函数，W^(l)表示l-1层到l层的权重矩阵，b^(l)表示l-1层到l层的偏置；

所述一级分类器和二级分类器的分类层采用Softmax作为输出函数，Softmax函数公式如下:

其中，j＝1,…,K，这里的K代表分类类别数，z_j为向量，即为由分类层上一层生成的，需要输入Softmax函数的向量数据；

样本向量x属于第j个分类的概率为：

x^T代表x的转置，w代表权重，k为求和公式中的参数，数值为1至K；循环神经网络R的循环单元激活函数采用tanh(双曲正切函数)，各分类器的分类层采用Softmax激活函数，各分类器其余部分(二级分类器的全连接层，一级分类器C的卷积层、池化层、全连接层和一级分类器R的全连接层)的激活函数默认采用参数化修正线性单元(Parametric RectifiedLinear Unit，PReLU)，公式为：

其中，x为输入的数据；α为可调常数，是通过神经网络学习得到的，如果学习得到的α＝0，则PReLU退化为修正线性单元(Rectified Linear UnitReLU)；如果α是一个很小的固定值，则PReLU退化为带泄露修正线性单元(Leaky ReLU，LReLU)；

所述一级分类器和二级分类器采用交叉熵作为其代价函数，用于模型的整体训练，交叉熵描述为：

其中P和Q是两个给定的概率分布，即预测标签和真实标签的概率分布；由于沙尘暴标签为离散分布，-E_x～P等价于-∑_xP(x)，P(x)用于描述样本的真实分布，Q(x)用于表示预测的分布；

所述一级分类器和二级元分类器的神经网络中样本是独立分布的，交叉熵采用了最大似然原理，即

其中

是第i个样本输入数据x⁽ⁱ⁾上的输出，即预测标签向量，n是每一训练批次中样本的数目，n是m的子集，每一批次训练n都是m中的一部分，y⁽ⁱ⁾是第i个样本的沙尘暴标签向量，x⁽ⁱ⁾是第i个样本的输入数据，θ代表最大似然估计中的分布参数，即使用样本输入数据，根据样本标签分布估计出来的参数值，p(y⁽ⁱ⁾|x⁽ⁱ⁾；θ)代表每一份样本的最大似然估计，将其累加即为整体的最大似然，σ代表需要估计的样本标签分布的标准差；

使用准确率、精度、召回率、F1 Score指标作为一级分类器和二级分类器模型的综合性能度量，其中F1 Score为精确率和召回率的调和平均数。

所述循环神经网络R为多层的深度RNN，采用门控递归单元(Gated RecursiveUnit，GRU)解决传统RNN所存在的长期依赖问题，并同样通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，GRU单元中的激活函数使用tanh，模型除分类层的其他层激活函数默认使用PReLU，并使用批归一化(Batch-Normalization，BN)和L2正则化方法减少其过拟合，增加泛化性；

所述卷积神经网络C为多层的深度CNN，通过卷积核获取局部特征信息，通过池化层进行下采样，下采样的作用为特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性；通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，并使用批归一化(Batch-Normalization，BN)和L2正则化方法减少其过拟合，增加泛化性；

所述元分类器Q为一个多层的全连接神经网络，使用Dropout(DP)和L2正则化方法减少过拟合，采用1*1卷积层代替全连接层，进行模型的稳定和特征整合，即元分类器Q本质为卷积核大小为1*1的，多层卷积堆叠的卷积神经网络。

所述采用1*1卷积层代替全连接层，用以实现跨通道的交互和信息整合，并进行卷积核通道数的降维和升维，每个样本的存储形式与灰度图片相同，即每个样本有一个feature map。

所述批归一化(Batch-Normalization，BN)减少过拟合方法，是通过使用BN，令每个神经元的激活变得符合高斯分布，即神经元通常中等活跃，有时有点活跃，罕见非常活跃，BN的算法描述如下：

m为一个批次(batch)中的样本数量；x代表输入样本；u_B代表这个批次中样本的均值；

为这个批次中样本的方差；

代表归一化之后的样本数据；γ是尺度因子；β是平移因子；y_i为通过批归一化(bn)操作最终得到的数据。

即BN步骤主要分为4步

(1)求每一个训练批次数据的均值；

(2)求每一个训练批次数据的方差；

(3)使用求得的均值和方差对该批次的训练数据做归一化，获得0-1分布；

(4)尺度变换和偏移：将x_i乘以γ调整数值大小，再加上β增加偏移后得到y_i，γ是尺度因子，β是平移因子，由于归一化后的x_i基本会被限制在正态分布下，使得网络的表达能力下降，为解决该问题，引入两个新的参数：γ，β，γ和β是在训练时网络自己学习得到的。

所述L2正则化方法是在原来的损失函数基础上加上权重参数的平方和，L2正则化之后的损失函数表示为：

其中，w为分类器网络模型参数，E_in(w)是未包含正则化项的训练样本误差，λ是正则化参数；

根据上述公式，L(w)的梯度表示为：

所述Dropout(DP)方法是在神经网络前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，以使模型在每次训练批次中，不会太过依赖于批次数据的某些局部特征。

与现有技术相比，本发明的有益效果是：

(1)传统的气象预报方法采用天气学，气象动力学，统计学等方法对天气进行预测，对常见气候，如降水，气温等有着比较好的预测效果。但沙尘暴气象是一种特殊的天气现象，需要考虑各方面的气象因素，传统天气预报方法预测沙尘暴，将消耗大量的计算资源和人力资源。由于深度神经网络具有特征提取，时序建模方面的优势，采用深度学习建模的形式进行预测，能更灵活高效的使用数据资源和计算资源。因为其统计预测角度更加宽泛，所以也可以作为传统气象预测的一项有效补充方法。

(2)与使用单一深度神经网络的技术相比，本发明采用了Stacking集成技术，且选用RNN和CNN分别作为其一级分类器，可以很好的融合RNN的时序数据处理能力和CNN的高维特征提取能力，具有更广泛的预测角度和更好的泛化能力。

(3)默认激活函数采用PReLU(参数化修正线性单元)，ReLU相比，可以通过网络学习，自动选择退化成ReLU或者保留一个相对分类效果较好的参数α，可以提升模型的灵活性和泛化能力。

(4)采用了1*1卷积核代替全连接层的技术，其能在不增加感受野的情况下，让网络加深，引入更多的非线性神经元，可以整合更多的特征，提供更好的泛化性能，提高预测综合性能。

(5)在一级分类器中采用了Batch-Normalization和L2正则化技术，在二级元分类器中采用了Dropout和L2正则化技术，提高了各级分类器的泛化能力，提高了整体分类器预测准确度和精度。

附图说明

图1是本发明基于Stacking集成策略神经网络流程图。

图2是网格型时序气象数据示意图。

图3是前馈神经网络示意图。

图4是ReLU，PReLU以及tanh激活函数示意图。

图5是一级分类器R特征提取流程图。

图6是RNN递归单元展开图。

图7是GRU门控机制图。

图8是卷积和池化操作图。

图9是1*1卷积核代替全连接操作图。

图10是Dropout对比示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

循环神经网络((Recurrent Neural Network，RNN)是深度学习模型中的一种。这类神经网络通常用于处理序列数据。由于气象数据具有的时空特性和周期性，因此，本发明将采用循环神经网络作为其的一个一级分类器，并使用门控递归单元(Gated RecursiveUnit，GRU)解决传统RNN中长期依赖的问题，对采集到的沙尘暴气象序列数据进行分析和预测。

卷积神经网络(Convolutional Neural Network，CNN)在高维数据特征提取方面，一般有着更好的效果。卷积神经网络是一种专门用来处理具有类似网格结构的数据的神经网络，由于特征提取能力强，在很多领域，如图像处理，都表现优异。在气象数据中，其整体是一个时间序列，而在某一条数据中，其有多个气象属性，是典型的高维数据。面对气象数据，不仅可以从时间上的上下文信息去预测未来的沙尘暴等级，也可以从高维的气象因素中提取有用的信息。基于以上优点，本发明中采用CNN作为其第二个一级分类器。

即，本发明一种基于Stacking集成神经网络的沙尘暴等级预测方法，利用循环神经网络提取原始天气数据的时序特征，利用卷积神经网络提取原始天气的高维特征，利用Stacking集成策略，用元分类器融合两个深度神经网络的优点，取得良好的泛化预测分类性能。

性能度量要求：对于每个分类器，分类准确率，召回率，精度，F1 Score组成的综合性能尽可能高。

具体如图1所示，本发明在卷积神经网络C和循环神经网络R作为沙尘暴的一级分类器的基础上，并利用Stacking集成策略，引入一个二级元分类器器Q，取得更加泛化准确的预测结果。

上述一级分类器卷积神经网络C和循环神经网络R主要作用为，将原始天气样本数据分别输入其自身的网络，得到其一级学习特征，并将此一级特征组合成为二级分类器Q的输入，R主要关注原始天气样本数据的时序特征，C主要关注原始天气样本数据的高维特征。

原始样本数据为经过数据预处理的、基于时序排列的网格型气象数据，其中时间从上到下排列，属性从左到右排列，如图2所示，W代表时序数据的时间跨度，单位为天，L代表气象数据的属性个数，图中所示即为W天，具有L个气象属性的时序数据。

原始样本数据具体通过如下方式获取：

将所述整体数据集进行数据清洗，属性规约等数据预处理，其中属性指的是气象部门采集的如风速，日照时数等气象属性；

其中时序指的是按统一指标记录气象属性数据的时间顺序，如在某一样本中，数据记录开始的时间为6月1日，结束日期为6月15日，则在此样本中，时序即为6月1日-6月15日，总共15天的时间顺序。沙尘暴等级标签依据国家标准，根据能见度分为5类，加上未发生沙尘暴的类别，具体定义为{0，1，2，3，4，5}，数字越小等级越高，即0为特强沙尘暴，5为未发生沙尘暴。例如，在某一样本中，数据记录开始的时间为6月1日，结束日期为6月15日，等级标签即为6月16日沙尘暴等级，以此达到以前15天的数据预测第16天沙尘暴等级的效果(也可以将其标注为其它更靠后的日期的等级)。

具体地，可将m个原始天气样本数据随机切分为k个样本集合，从中枚举每一个样本集合S_i，i≤k，将剩余的样本集合作为训练集，分别对两个一级分类器进行训练，训练好的一级分类器R和C分别有k个基模型{R}和{C}，其中每一个基模型可表示为R_i和C_i，则每个基模型都有一个训练样本集合S_i不作为其训练样本，而作为其预测样本，将其对应的样本集合S_i进行沙尘暴等级预测，每个基模型对第i个训练样本集合的预测值将作为新样本集中第i个样本的一个特征值集合，并将所有的特征值组合成新的特征样本，组合方式为相同类型的基模型特征值按行排列(相同类型的基模型指的是所有R_i为相同类型，所有C_i为相同类型)，由同一样本集合预测得到的特征值按列展开，最后利用该特征样本作为训练集进行二级元分类器的训练；对于预测过程，先分别由所有一级分类器基模型C_i和R_i将测试集进行预测，由此可以得到k个预测结果集合，将预测结果集合进行投票(选择多数类)，从而形成特征样本预测集，具体组合方式为由同一类型基模型投票所得的特征按行排列，由同一样本预测得到的特征值按列展开，由此方式可以得到与上述特征样本训练集相同形式的特征样本预测集，最后再利用二级元分类器对其进行预测，从而得到更好的预测分类效果。

本发明一级分类器和二级分类器的前馈神经网络如图3所示，该结构有以下特点：

(1)每层神经元与下一层神经元之间完全互连

(2)神经元之间不存在同层连接

(3)神经元之间不存在跨层连接

其中隐藏层和输出层中的Neuren代表神经元，“前馈”指的是网络拓扑结构中不存在环或回路。

一级分类器和二级分类器的前馈神经网络通过以下公式进行信息传播：

z^(l)＝W^(l)·a^(l-1)+b^(l)

a^(l)＝f_l(z^(l))

将两式进行合并得：

a^(l)＝f_l(W^(l)·a^(l-1)+b^(l))

其中，a^(l)表示l层神经元的输出，f_l表示l层神经元的激活函数，W^(l)表示l-1层到l层的权重矩阵，b^(l)表示l-1层到l层的偏置。

其中二级元分类器的全连接层，一级分类器C的卷积层、池化层、全连接层和R的全连接层的激活函数均采用PReLU(参数化修正线性单元)，R中的循环单元激活函数采用tanh(双曲正切函数)，所有分类器的分类层皆采用Softmax激活函数。

其中，x为输入的数据；α为可调常数，是通过神经网络学习得到的，如果学习得到的α＝0，那么PReLU退化为修正线性单元(Rectified Linear UnitReLU)；如果α是一个很小的固定值(如α＝0.01)，则PReLU退化为带泄露修正线性单元(Leaky ReLU，LReLU)。相对于ReLU，PReLU负值部分的系数α是根据数据来定的，而非预先定义为0，这使模型具有更高的拟合能力；相对于LReLU，PReLU以通过训练学习得到系数α，更灵活，并且只增加了极少量的参数，也就意味着，其只增加了少量的，可忽略不计的计算量以及过拟合的危险性。

tanh激活函数的公式为：

其中，x为输入的数据。

选用PReLU的原因，其在梯度下降上比较tanh有更快的收敛速度，且计算开销较小，相对于ReLU，PReLU可以通过网络学习，自动选择退化成ReLU或者保留一个相对分类效果较好的参数α，可以提升模型的灵活性和泛化能力；而在RNN循环单元中一般使用tanh激活函数，PReLU与tanh示意图如图4所示。

上述一级分类器R和C在进行特征提取时，输入层将原始天气数据x作为第一层的输入a⁽⁰⁾代入f(w,a,b)中，再经过多层隐藏层输出a^(l)作为为整个函数输出向量，然后将该输出向量作为Softmax激活函数的输入向量x输入，Softmax函数将输出归一化之后的预测概率。

即，一级分类器和二级分类器的分类层采用Softmax作为输出函数，与代价函数不同，分类层可以获得预测结果，Softmax函数公式如下:

其中，j＝1,…,K，这里的K代表分类类别数，本发明中即为6；z_j为向量，即为由分类层上一层生成的，需要输入Softmax函数的向量数据。

Softmax函数实际上是有限项离散概率分布的梯度对数归一化。特别地，在本发明的多项逻辑回归和线性判别分析中，函数的输入是从K个不同的线性函数得到的结果，而样本向量x属于第j个分类的概率为：

这可以被视作K个线性函数Softmax函数的复合，x^T代表x的转置，w代表权重，k为求和公式中的参数，数值为1至K。

一级分类器和二级分类器采用交叉熵作为其代价函数(又称损失函数,loss)，用于模型的整体训练，交叉熵描述为：

其中P和Q是两个给定的概率分布，即预测标签和真实标签的概率分布；由于沙尘暴标签为离散分布，-E_x～P等价于-∑_xP(x)，P(x)用于描述样本的真实分布，例如[1,0,0,0]表示此样本x属于第一类，而Q(x)用于表示预测的分布，例如[0.7,0.1,0.1,0.1]，代表此样本x属于第一类的概率为0.7。

一级分类器和二级元分类器的神经网络中样本是独立分布的，交叉熵采用了最大似然原理，即

其中

是第i个样本输入数据x⁽ⁱ⁾上的输出，即预测标签向量(标签采用one-hot编码)，n是每一训练批次中样本的数目，n是m的子集，每一批次训练n都是m中的一部分，y⁽ⁱ⁾是第i个样本的沙尘暴标签向量(one-hot编码)，x⁽ⁱ⁾是第i个样本的输入数据，θ代表最大似然估计中的分布参数，即使用样本输入数据，根据样本标签分布估计出来的参数值，p(y⁽ⁱ⁾|x⁽ⁱ⁾；θ)代表每一份样本的最大似然估计，取对数是为了计算方便，且不影响结果，将其累加即为整体的最大似然，σ代表需要估计的样本标签分布的标准差，即在本公式中，左式的需要估计的分布参数θ为右式的σ；

对于上述所有一二级分类器而言，皆采用准确率、精度、召回率、F1Score指标作为综合性能度量，设：

TP(True Positive)：被判定为正样本，事实上也是正样本。

TN(True Negative)：被判定为负样本，事实上也是负样本。

FP(False Positive)：被判定为正样本，但事实上是负样本。

准确率公式为：

Accuracy＝(TP+TN)/(TP+TN+FN+FP)/100

精度公式为：

Precision＝TP/(TP+FP)/100

召回率公式为：

Recall＝TP/(TP+FN)/100

F1 Score，又称平衡F分数(balanced F Score)，它被定义为精确率和召回率的调和平均数，其公式为：

一级分类器R和C，自身的性能度量并非对整体模型性能的度量，而是对其特征提取能力的度量，也就是说，R和C性能的高低并不直接反映整体分类模型的性能。

经过一级分类器的训练预测，可以得到基于一级分类器的天气气象数据特征，这将作为二级元分类器的输入，一级分类器R具体的特征提取流程如图5所示，一级分类器C特征提取流程与R同理。整体特征提取具体流程可描述为：

(a)对于模型1(本发明中为一级分类器R)，将训练集分为k份，对于每一份，用剩余数据集训练模型，然后预测出这一份的结果。

(b)重复上面步骤，直到每一份都预测出来，得到二级分类器模型的训练集的一部分。

(c)得到k份测试集预测值，平均取整后得到元分类器模型的测试集的一部分。

(d)对于模型2(一级分类器C)重复以上步骤，得到整个元分类器模型的训练集和测试集。

(e)对元分类器Q模型进行训练和预测。

传统的RNN展开如图6所示，本发明一级分类器循环神经网络R为多层的深度RNN，采用门控递归单元(Gated Recursive Unit，GRU)解决传统RNN存在的长期依赖问题，GRU是传统RNN的一种变体，其引入了门控机制，分别为更新门和重置门。GRU的门控机制如图7所示，图中的z_t和r_t分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集

上，重置门越小，前一状态的信息被写入的越少。GUR向前传播的公式为：

r_t＝σ(W_r·[h_t-1,x_t] (1)

z_t＝σ(W_z·[h_t-1,x_t] (2)

y_t＝σ(W₀·h_t) (5)

其中[]表示两个向量相连，*表示矩阵的乘积，循环神经网络R通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，其中(3)中的tanh为GRU单元默认的激活函数，可以替换成其他激活函数，如修正线性单元(RELU)。模型除分类层的其他层激活函数默认使用PReLU，并使用批归一化(Batch-Normalization，BN)和L2正则化方法减少其过拟合，增加泛化性。

本发明一级分类器卷积神经网络C为多层的深度CNN，采用卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元(Neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，也称为“感受野(receptive field)”。通过卷积核获取局部特征信息，通过池化层进行下采样，下采样的作用为特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性；通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，并使用批归一化(Batch-Normalization，BN)和L2正则化方法减少其过拟合，增加泛化性。

具体地，卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。卷积与池化操作如图8所示。

元分类器Q为一个多层的全连接神经网络，使用Dropout(DP)和L2正则化方法减少过拟合，采用1*1卷积层代替全连接层，进行模型的稳定和特征整合，即元分类器Q本质为卷积核大小为1*1的，多层卷积堆叠的卷积神经网络。

本发明一级分类器R，C以及二级分类器，在分别经过卷积或GRU操作之后，需要全连接层把前边提取到的特征综合起来。在本发明中，将使用1*1卷积核代替全连接层，用以实现跨通道的交互和信息整合，并进行卷积核通道数的降维和升维。在每个卷积层，数据都是以三维形式存在的，可以把它看成许多个二维数据叠在一起，其中每一个二维数据称为一个feature map。对于图片数据而言，在输入层，如果是灰度图片，那就只有一个featuremap；如果是彩色图片，一般就是3个feature map(RGB)。对于单通道feature map用单核卷积操作，即为乘以一个参数，对于多核卷积多通道操作，需要实现多个feature map的线性组合。在本发明中，每个样本的存储形式与灰度图片相同，即每个样本有一个feature map。在数值运算角度，卷积跟全连接均是一个点乘操作，区别在于卷积是作用在一个局部的区域，而全连接是对于整个输入而言，将卷积作用的区域扩大为整个输入，1*1卷积核即有效代替全连接层，并提供更好的泛化性能，提高预测综合性能。

如图9所示，图中网络第一层有5个神经元，分别是a1—a5，通过全连接之后变成3个，分别是b1—b3，即第一层的5个神经元要和后面3个实现全连接，本图中只画了a1—a5全连接到b1的示意，可以看到，在全连接层中b1其实是前面5个神经元的加权和，对应的权重为W1—W5；在使用1*1卷积核代替全连接时，第一层的5个神经元其实就相当于输入特征里的通道数：5，而第二层的3个神经元相当于1*1卷积之后的新的特征通道数：3，W1—W5可以视为卷积核的权重系数，由上述数据可以构建一个代替全连接操作的1*1卷积核。

1*1卷积核，又被成为网中网(Network in Network)，相对于全连接，1*1卷积核有以下特征：

(1)在不增加感受野的情况下，让网络加深，引入更多的非线性神经元。

(2)实现跨通道的交互和信息整合，在本发明中，即可以整合更多的特征。

(3)进行卷积核通道数的升维和降维。

其中，批归一化(Batch-Normalization，BN)减少过拟合方法，是通过使用BN，令每个神经元的激活变得符合高斯分布，即神经元通常中等活跃，有时有点活跃，罕见非常活跃。在bn的标准化中，协变量偏移是不变的，不满足高斯分布的需要，因为后面的层必须保持适应分布类型的变化。bn的本质就是利用优化变一下方差大小和均值位置，使得新的分布更切合数据的真实分布，保证模型的非线性表达能力。BN的算法描述如下：

为这个批次中样本的方差；

即BN步骤主要分为4步

(1)求每一个训练批次数据的均值；

(2)求每一个训练批次数据的方差；

本发明将在一级分类器所有隐藏层(不含分类层)的激活函数之前使用批归一化。

L2正则化方法是在原来的损失函数基础上加上权重参数的平方和，L2正则化之后的损失函数表示为：

根据上述公式，L(w)的梯度表示为：

而Dropout(DP)解决元分类器Q过拟合的方法，是指在神经网络前向传播的时候，让某个神经元的激活值以一定的概率p(本发明取p＝50％)停止工作，这样可以使模型在每次训练批次中，不会太过依赖于批次数据的某些局部特征，这种方式在一定程度上可以减少神经元间的相互作用，使模型泛化性更强。Dropout示意如图10所示，左边是未采用Dropout操作的神经网络，右边是采用Dropout操作后的神经网络，可以看到，右边的神经网络某一些神经元会在某个批次的数据通过时，暂时性失活。

下面结合实施例，对本发明进行进一步说明。

将收集到的原始天气数据进行数据预处理，整合为如图2所示的网格型时序数据，并分成训练集和测试集。将训练集依次输入上述的一级分类器R和C中进行模型的训练，根据图5的特征生成方式，提取原始天气数据的时序特征和高维特征，并将其作为输入，对二级元分类器进行训练；在模型构建中，使用Batch-Normalization，Dropout，L2正则化，1*1卷积核代替全连接操作等增加模型泛化能力的方法，最终得到具有C和R共同优点的，具有更好泛化特性的综合分类器。

在分类预测时，将测试集输入到综合分类器中的R和C中，提取其特征，输入元分类器Q，最终得到预测的沙尘暴等级量，并以此衡量综合分类器的分类性能。

在实际预测中，收集得到相关的天气属性，将其整合成对应的样本形式，输入到一级分类器中提取特征，再将特征输入元分类器，即可得到未来时刻的沙尘暴预测等级。

Claims

1.一种基于Stacking集成策略的沙尘暴等级预测方法，其特征在于，包括：

步骤1，以循环神经网络R和卷积神经网络C作为一级分类器，将原始天气样本数据分别输入循环神经网络R和卷积神经网络C，得到对应的一级学习特征；

步骤2，利用Stacking集成策略，引入一个元分类器Q作为二级分类器，将所述一级学习特征组合并作为二级分类器的输入；

步骤3，以二级分类器的输出作为最终预测的沙尘暴等级量；

其中，步骤1中，所述原始天气样本数据通过如下方式获取：

将所述整体数据集进行数据清洗，属性规约数据预处理；

将预处理的数据进行时序排列，属性从左到右展开，时序从上到下排列，并为每一个数据打上沙尘暴等级标签，最终得到原始天气样本数据；

步骤2和步骤3中，将m个原始天气样本数据随机切分为k个样本集合，从中枚举每一个样本集合

，i≤k，将剩余的样本集合作为训练集，分别对两个一级分类器进行训练，训练好的一级分类器基模型表示为

和

，将其对应的样本集合

进行沙尘暴等级预测，每个基模型对第i个训练样本集合的预测值将作为新样本集中第i个样本的一个特征值，并将所有的特征值组合成新的特征样本，最后利用该特征样本作为训练集进行二级分类器的训练；对于预测过程，先由所有一级分类器预测形成特征样本集，最后再对特征样本集进行预测，从而得到更好的预测效果；

其中，

表示

层神经元的输出，

表示

层神经元的激活函数，

表示

层到

层的权重矩阵，

表示

层到

层的偏置；

其中，j=1,…,K，这里的K代表分类类别数，

为向量，即为由分类层上一层生成的，需要输入Softmax函数的向量数据；

样本向量x属于第j个分类的概率为：

代表

的转置，

代表权重，k为求和公式中的参数，数值为1至K；循环神经网络R的循环单元激活函数采用tanh，各分类器的分类层采用Softmax激活函数，各分类器其余部分的激活函数默认采用参数化修正线性单元，公式为：

其中，x为输入的数据；

为可调常数，是通过神经网络学习得到的，如果学习得到的

=0，则参数化修正线性单元退化为修正线性单元；如果

是一个很小的固定值，则参数化修正线性单元退化为带泄露修正线性单元；

其中P和Q是两个给定的概率分布，即预测标签和真实标签的概率分布；由于沙尘暴标签为离散分布，

等价于

，

用于描述样本的真实分布，

用于表示预测的分布；

其中

是第i个样本输入数据

上的输出，即预测标签向量，n是每一训练批次中样本的数目，n是m的子集，每一批次训练n都是m中的一部分，

是第i个样本的沙尘暴标签向量，

是第i个样本的输入数据，

代表最大似然估计中的分布参数，即使用样本输入数据，根据样本标签分布估计出来的参数值，

代表每一份样本的最大似然估计，将其累加即为整体的最大似然，

代表需要估计的样本标签分布的标准差；

使用准确率、精度、召回率、F1 Score指标作为一级分类器和二级分类器模型的综合性能度量，其中F1 Score为精确率和召回率的调和平均数；

所述循环神经网络R为多层的深度RNN，采用门控递归单元解决传统RNN所存在的长期依赖问题，并同样通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，门控递归单元中的激活函数使用tanh，模型除分类层的其他层激活函数默认使用参数化修正线性单元，并使用批归一化和L2正则化方法减少其过拟合，增加泛化性；

所述卷积神经网络C为多层的深度CNN，通过卷积核获取局部特征信息，通过池化层进行下采样，下采样的作用为特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性；通过1*1卷积层代替全连接层，进行模型的稳定和特征整合，并使用批归一化和L2正则化方法减少其过拟合，增加泛化性；

所述元分类器Q为一个多层的全连接神经网络，使用Dropout和L2正则化方法减少过拟合，采用1*1卷积层代替全连接层，进行模型的稳定和特征整合，即元分类器Q本质为卷积核大小为1*1的，多层卷积堆叠的卷积神经网络；

所述采用1*1卷积层代替全连接层，用以实现跨通道的交互和信息整合，并进行卷积核通道数的降维和升维，每个样本的存储形式与灰度图片相同，即每个样本有一个featuremap；

其中，w为分类器网络模型参数，

是未包含正则化项的训练样本误差，λ是正则化参数；

根据上述公式，L(w)的梯度表示为：

。

2.根据权利要求1所述基于Stacking集成策略的沙尘暴等级预测方法，其特征在于，利用所述循环神经网络R提取原始天气样本数据的时序特征，利用所述卷积神经网络C提取原始天气样本数据的高维特征。

3.根据权利要求1所述基于Stacking集成策略的沙尘暴等级预测方法，其特征在于，所述Dropout方法是在神经网络前向传播的时候，让某个神经元的激活值以概率p停止工作，以使模型在每次训练批次中，不会太过依赖于批次数据的某些局部特征。