CN109508756A

CN109508756A - 一种基于多线索多模态融合深度网络的地基云分类方法

Info

Publication number: CN109508756A
Application number: CN201910060408.0A
Authority: CN
Inventors: 刘爽; 李梅; 张重
Original assignee: Tianjin Normal University
Current assignee: Tianjin University; Tianjin Normal University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-03-22
Anticipated expiration: 2039-01-22
Also published as: CN109508756B

Abstract

本发明实施例公开了一种基于多线索多模态融合深度网络的地基云分类方法，该方法包括：对输入地基云样本进行预处理，得到多线索多模态融合深度网络输入；将该输入转移到多线索多模态融合深度网络训练模型中，训练得到多线索多模态融合深度网络；提取每个输入地基云样本的全局视觉特征、局部视觉特征与多模态特征，融合得到每个输入地基云样本的最终特征表示；训练支持向量机分类器，得到地基云分类模型；获取测试输入地基云样本的最终特征表示，输入至地基云分类模型中得到分类结果。本发明具有融合异构特征能力，能够有效学习视觉信息与多模态信息，提取出更高辨别性的全局视觉特征、局部视觉特征与多模态特征，提高地基云分类的正确率。

Description

一种基于多线索多模态融合深度网络的地基云分类方法

技术领域

本发明属于模式分类、气象科学、人工智能技术领域，具体涉及一种基于多线索多模态融合深度网络的地基云分类方法。

背景技术

在过去的几十年里，研究者们对地基云分类进行了广泛的探索。地基云分类对许多实际应用非常重要，这些应用包括气候预测、空中交通管制、天气监控等。如今，地基云分类仍然主要依赖于专业的观察者，而人工观测消耗时间和人力，并受观察者经验和主观因素等影响，导致地基云分类结果往往因人而异。因而，迫切需要提出精准的自动地基云分类方法。

大多数传统方法主要使用手工特征表示地基云图像，这些特征包括亮度、纹理、形状和颜色等。Singh和Glennen使用自相关矩阵、互相关矩阵、边界频率、Law特征和本原长度等纹理特征将地基云图像自动分为5类。Kazantzidis等人使用7种颜色特征、3种纹理特征、总云量和地基云图像上的雨滴将地基云图像分为7类。Liu等人提出用显著性局部二值编码提取具有表示信息的特征。以上方法均是基于手工特征的地基云视觉特征提取方法，并不适用于不同分布的地基云数据库。近年来，卷积神经网络(CNN)因其可以自动学***均池化或最大池化作用于每张卷积激活图上，然后提取基于卷积激活的特征并对地基云进行分类。Ye等人利用Fisher向量编码从卷积神经网络的卷积层提取特征对地基云图像进行分类。Zhang等人提出CloudNet同时提取地基云图像的纹理特征、结构特征和形状特征对地基云图像进行分类。由于地基云图像类内差别大类间差别小，分类难度大，现有的方法很难达到实际分类要求，主要有以下两方面原因。

首先，许多基于卷积神经网络的方法主要关注如何从整幅地基云图像上提取全局特征。由于受地基云图像上非显著信息的影响，提取的全局特征往往不是最优的。Ye等人使用模式挖掘与选择策略提取多个卷积层的局部视觉特征，然后利用Fisher向量对提取的特征进行编码。但是，他们仅仅是从预训练的卷积神经网络中直接提取地基云图像的视觉特征，没有学习的过程，这无疑会降低地基云图像的分类正确率。因而，需要提出一种能自动定位地基云图像显著区域进而提取具有判别性局部特征的方法。

其次，地基云图像属于地基云视觉信息，很难准确描述地基云。与此同时，云的形成是多种因素相互作用的结果，这些因素包括温度、湿度、气压、风速等，可以定义这些因素为多模态信息。云的形成与多模态信息具有较大相关性。例如，湿度影响云的产生，风影响云的形状。因此，多模态信息包含潜在的地基云信息，这些信息与视觉信息互补，将视觉信息与多模态信息融合可以提高地基云分类的准确率。

发明内容

本发明的目的是要解决地基云分类困难的问题，为此，本发明提供一种基于多线索多模态融合深度网络的地基云分类方法。

所述方法包括以下步骤：

步骤S1，对输入地基云样本进行预处理，得到多线索多模态融合深度网络输入，所述多线索多模态融合深度网络输入包括多线索多模态融合深度网络的视觉信息输入和多线索多模态融合深度网络的多模态信息输入；

步骤S2，将所述多线索多模态融合深度网络输入转移到多线索多模态融合深度网络训练模型中，训练得到多线索多模态融合深度网络；

步骤S3，提取每个输入地基云样本的全局视觉特征、局部视觉特征与多模态特征，并将其融合，得到每个输入地基云样本的最终特征表示；

步骤S4，根据所述最终特征表示训练支持向量机分类器，得到地基云分类模型；

步骤S5，获取测试输入地基云样本的最终特征表示，并将其输入至所述地基云分类模型中，得到测试输入地基云样本分类结果。

可选地，所述步骤S1包括：

步骤S11，对所述输入地基云样本中的地基云图像进行预处理，得到所述多线索多模态融合深度网络的视觉信息输入；

步骤S12，对所述输入地基云样本中的多模态信息进行预处理，得到所述多线索多模态融合深度网络的多模态信息输入。

可选地，所述步骤S11包括：

步骤S111，对将所述地基云图像进行归一化，得到归一化图像；

步骤S112，对所述归一化图像进行水平翻转，得到水平翻转图像；

步骤S113，对所述水平翻转图像进行随机裁剪；

步骤S114，将经随机裁剪后的地基云图像的每个RGB像素值减去相应的预设RGB像素均值，得到所述多线索多模态融合深度网络的视觉信息输入。

可选地，所述步骤S12包括：

步骤S121，获取所述输入地基云样本中的多模态信息；

步骤S122，将所述多模态信息的值进行归一化，得到多线索多模态融合深度网络的多模态信息输入。

可选地，所述步骤S2包括以下步骤：

步骤S21，构建多线索多模态融合深度网络，其中，所述多线索多模态融合深度网络包括主网络、集中网络、多模态网络、两个融合层、两个全连接层和损失函数；

步骤S22，初始化所述集中网络、多模态网络和全连接层的参数，得到多线索多模态融合深度网络训练模型；

步骤S23，将所述多线索多模态融合深度网络的视觉信息输入和多线索多模态融合深度网络的多模态信息输入分别批量输入至所述多线索多模态融合深度网络训练模型的主网络和多模态网络进行联合训练，得到多线索多模态融合深度网络。

可选地，所述步骤S3包括以下步骤：

步骤S31，将所述多线索多模态融合深度网络的视觉信息输入和多线索多模态融合深度网络的多模态信息输入分别输入至训练好的多线索多模态融合深度网络的主网络和多模态网络中；

步骤S32，分别提取主网络、集中网络和多模态网络的输出作为所述输入地基云样本的全局视觉特征、局部视觉特征和多模态特征；

步骤S33，将所述输入地基云样本的全局视觉特征、局部视觉特征和多模态特征进行融合，得到所述输入地基云样本的最终特征表示。

可选地，所述步骤S32中，将主网络中平均池化层的输出作为全局视觉特征，将集中网络中平均池化层的输出作为局部视觉特征，将多模态网络中最后一个全连接层的输出作为多模态特征。

可选地，所述步骤S33中，使用串联融合函数将所述输入地基云样本的全局视觉特征、局部视觉特征和多模态特征进行融合。

可选地，所述步骤S4被实施为：

将每个训练地基云样本的最终特征表示与该样本所对应的标签分别输入到支持向量机分类器中，训练得到所述地基云分类模型。

可选地，所述支持向量机分类器为径向基核函数。

本发明的有益效果为：本发明通过多线索多模态融合深度网络学习地基云视觉和多模态信息，能够有效融合异构特征信息，达到有效提取具有更高判别性的全局视觉特征、局部视觉特征和多模态特征的目的；通过融合全局视觉特征、局部视觉特征和多模态特征，能够充分利用它们之间的互补信息，提高地基云分类的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61711530240、No.61501328，天津市自然科学基金重点项目No.17JCZDJC30600，天津师范大学“青年科研拔尖人才培育计划”No.135202RC1703，模式分类国家重点实验室开放课题基金No.201700001、No.201800002，中国国家留学基金No.201708120040、No.201708120039和天津高等学校创新团队基金项目的资助。

附图说明

图1是根据本发明一实施例提出的一种基于多线索多模态融合深度网络的地基云分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例提出的一种基于多线索多模态融合深度网络的地基云分类方法的流程图，如图1所示，所述基于多线索多模态融合深度网络的地基云分类方法包括：

其中，所述对输入地基云样本进行预处理包括以下步骤：

其中，对所述输入地基云样本中的地基云图像进行预处理包括以下步骤：

在本发明一实施例中，所述输入地基云样本中的地基云图像原始大小为1024×1024，其中，两个1024分别表示地基云图像的高度和宽度；归一化后的地基云图像大小为252×252，其中，两个252分别表示归一化后的地基云图像的高度和宽度。

其中，所述水平翻转指的是以图像的竖直中心为基准左右翻转。

步骤S113，对所述水平翻转图像进行随机裁剪；

其中，所述随机剪裁指的是在不超过图像大小的范围内进行随机窗口裁剪。

在本发明一实施例中，图像的大小为252×252，在不超过图像大小的范围内进行随机窗口裁剪，窗口的上边界和左边界在图像内，且距离图像的上边界和下边界均不得超过28个像素，得到的地基云图像大小为224×224，其中，两个224分别表示经裁剪后地基云图像的高度和宽度。

在本发明一实施例中，所述预设RGB像素均值可设为训练集中所有地基云图像在RGB通道上的均值。

其中，对所述输入地基云样本中的多模态信息进行预处理包括以下步骤：

步骤S121，获取所述输入地基云样本中的多模态信息；

在本发明一实施例中，所述多模态信息包括温度、湿度、气压和瞬时风速等信息。其中，温度的值域范围可以在-20—45，湿度的范围可以在0—100，气压的范围可以在850—1100，风速的范围可以在0—5，将这些地基云多模态信息的值采用线性归一化方法归一化到0—1范围内。

进一步地，所述步骤S2包括以下步骤：

所述主网络是一个残差网络，其第一个卷积层的卷积核大小为m₁×m₁，步长为s₁，卷积核组数量为n₁；第二至第五层是由数量不等的残差块组成，每个残差块由K层卷积层组成，每个残差块第k个卷积层的卷积核大小为m_k×m_k，步长为s_k，卷积核组数量为n_k，即有n_k个卷积激活图，在第一个卷积层和最后一个卷积层的后面分别是最大池化层和平均池化层，其中，最大池化层的核大小为m×m，步长为s。

所述集中网络中的集中图从主网络第三层的第一个残差块输出的卷积激活图中提取显著激活响应。使用X_i＝{x_i,c|c＝1,2,……,h×w}表示所述主网络第三层的第一个残差块的第i个卷积激活图，其中，h和w分别表示卷积激活图的宽和高，对X_i作降序排列，得到新的卷积激活图X_i'＝{x'_i,c|c＝1,2,……,h×w}，取X_i'的前m_atten×m_atten个激活响应并按照这些激活响应之前的顺序重新组成大小为m_atten×m_atten的集中图；对n_k个卷积激活图作相同的操作，得到n_k个集中图；集中图的后面紧接着两个卷积层，第一个卷积层的卷积核大小为m_a×m_a，第二个卷积层的卷积核大小为m_b×m_b，步长分别为s_a和s_b，卷积核组数量分别为n_a，n_b；对第一个卷积层的输出，设有一个批量归一化层和一个泄露修正线性单元，对第二个卷积层的输出，设有一个批量归一化层、一个泄露修正线性单元和一个平均池化层。

所述多模态网络由N层全连接层组成，第d层全连接层的神经元数量为l_d，每个全连接层后面分别有一个批量归一化层和一个泄露修正线性单元。

所述多线索多模态融合深度网络的最后两个全连接层的神经元数量均为l。

在本发明一实施例中，主网络中的第一个卷积层的卷积核大小为7×7，步长为2，卷积核组数量为64；第二至第五层分别由3、4、6、3个残差块组成，每个残差块由3层卷积层组成，每个残差块中的第一个和第三个卷积层的卷积核大小为1×1，第二个卷积层的卷积核大小为3×3，这三个卷积核的步长均为1；第二层残差块第一至第三层卷积层卷积核组数量分别为64、64和256；之后每层残差块第一至第三层卷积层卷积核组数量为前一层相应数量的2倍；最大池化层核大小为3×3，步长为2。集中网络的集中图大小为7×7，数量为512个；集中图后面的第一个卷积层的卷积核大小为3×3，步长为2，第二个卷积层的卷积核大小为1×1，步长为2；第一个卷积层和第二个卷积层的卷积核组数量分别为512和2048。多模态网络由4层全连接层组成，神经元数量依次为64，256，512，2048。最后两个全连接层的神经元数量均为7。

在本发明一实施例中，所述泄露修正线性单元可表示为：

其中，f_Leaky(v)为经过泄露修正线性单元作用后的输出值，v为神经元的输入值，η为泄露参数，可设为0.1。

在本发明一实施例中，第一个融合层的融合算法可以表示为：

F_gm＝g(f_g,f_m)，

其中，F_gm为融合后得到的每个输入地基云样本的一个融合特征表示，g为融合函数，f_g和f_m分别是主网络输出的全局视觉特征和多模态网络输出的多模态特征。

在本发明一实施例中，所述融合函数选为串联融合函数，即将提取的全局视觉特征f_g与多模态特征f_m进行串联，得到输入地基云样本的一个融合特征表示，即融合函数g可表示为：

g(f_g,f_m)＝[λ₁f_g ^T,λ₂f_m ^T]^T，

其中，λ₁，λ₂表示平衡全局视觉特征f_g与多模态特征f_m重要性的参数。

在本发明一实施例中，λ₁，λ₂可分别设为0.3和0.7，f_g和f_m的维度均为2048。

在本发明一实施例中，第二个融合层使用与第一个融合层相同的融合算法，其融合算法表示为：

F_lm＝g(f_l,f_m)＝[λ₃f^T _l,λ₄f_m ^T]^T，

其中，f_l和f_m分别是集中网络输出的局部视觉特征和多模态网络输出的多模态特征，λ₃，λ₄表示平衡局部视觉特征f_l与多模态特征f_m重要性的参数。

在本发明一实施例中，λ₃，λ₄分别设为0.3和0.7，f_l和f_m的维度均为2048。

在本发明一实施例中，损失函数作用在柔性最大算法上，柔性最大算法表达式为：

其中，T是云的种类，z_i为第一个融合层后面的第一个全连接层在第i个位置的神经元的输出值，z_j为第一个融合层后面的一个全连接层在第j个位置的神经元的输出值。

损失函数是交叉熵函数，其表达式为：

其中，q_j是真实标签的概率，当j是真实标签时，q_j＝1，否则q_j＝0。

在本发明一实施例中，第二个融合层后面的一个全连接层的损失函数与第一个融合层后面的一个全连接层的损失函数表达式相同，记为L₂。

在本发明一实施例中，多线索多模态融合深度网络总损失函数表达式为：

L＝αL₁+βL₂，

其中，α，β表示平衡损失L₁和L₂重要性的参数。

在本发明一实施例中，α，β的值均设为1。

在本发明一实施例中，卷积层、批量归一化层和全连接层的参数包括权重和偏置，权重初始化服从标准正太分布，偏置全部初始化为零。

步骤S23，将步骤S114得到的多线索多模态融合深度网络的视觉信息输入与步骤S121得到的多线索多模态融合深度网络的多模态信息输入分别批量输入至所述多线索多模态融合深度网络训练模型的主网络和多模态网络进行联合训练，得到多线索多模态融合深度网络。

在本发明一实施例中，可将多线索多模态融合深度网络的视觉信息输入和多线索多模态融合深度网络的多模态信息输入批量输入至所述多线索多模态融合深度网络训练模型的主网络和多模态网络中进行训练，其中，输入的多模态信息可以表示为：

M＝[m₁,m₂,...,m_p,...,m_P]^T，

其中，m_p表示第p个多模态信息，P表示多模态信息的个数。

在本发明一实施例中，使用4个多模态信息，即P为4，m₁,m₂,m₃,m₄分别表示温度、湿度、气压、瞬时风速。

其中，视觉信息与多模态信息是一一对应的关系。

步骤S3，提取每个输入地基云样本的多线索特征：全局视觉特征、局部视觉特征与多模态特征，并将其融合，得到每个输入地基云样本的最终特征表示；

进一步地，所述步骤S3包括以下步骤：

步骤S31，将步骤S1预处理后得到的视觉信息与多模态信息分别输入至训练好的多线索多模态融合深度网络的主网络和多模态网络中；

在本发明一实施例中，可将主网络中平均池化层的输出作为全局视觉特征，将集中网络中平均池化层的输出作为局部视觉特征，将多模态网络中最后一个全连接层的输出作为多模态特征。

在本发明一实施例中，融合算法可以表示为：

F＝r(f_g,f_l,f_m)，

其中，F为融合后得到的每个输入地基云样本的最终特征表示，r为融合函数。

在本发明一实施例中，所述融合函数选为串联融合函数，即将提取的全局视觉特征f_g，局部视觉特征f_l和多模态特征f_m进行串联，得到输入地基云样本的最终特征表示，即融合函数r表示为：

r(f_g,f_l,f_m)＝[λ₅f_g ^T,λ₆f_l ^T,λ₇f_m ^T]^T，

其中，λ₅，λ₆，λ₇分别表示平衡全局视觉特征f_g，局部视觉特征f_l和多模态特征f_m重要性的参数。

在本发明一实施例中，λ₅，λ₆，λ₇分别设为0.3、0.3和0.7。

步骤S4，训练支持向量机分类器，得到地基云分类模型；

所述步骤S4具体为：

将根据步骤S3得到的每个训练地基云样本的最终特征表示与该样本所对应的标签分别输入到支持向量机分类器中，训练得到所述地基云分类模型。

在本发明一实施例中，所述支持向量机分类器为径向基核函数。

其中，所述测试输入地基云样本的最终特征表示可按照上述步骤得到。

在本发明一应用实例中，所使用的地基云图像数据库是在不同的季节不同的时间下在中国拍摄的，所用摄像机是鱼眼镜头，具有广泛的视角。多模态信息是用手持气象站获得的，包含温度、湿度、气压、瞬时风速等信息。地基云图像拍摄与多模态信息采集是同时进行的，因此，一幅图像对应多个多模态信息。通过从主网络、集中网络和多模态网络分别提取地基云样本的全局视觉信息、局部视觉信息和多模态信息，再将它们融合，地基云样本的分类正确率为88.63％，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于多线索多模态融合深度网络的地基云分类方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤S11包括：

步骤S113，对所述水平翻转图像进行随机裁剪；

4.根据权利要求2或3所述的方法，其特征在于，所述步骤S12包括：

步骤S121，获取所述输入地基云样本中的多模态信息；

5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

6.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，所述步骤S32中，将主网络中平均池化层的输出作为全局视觉特征，将集中网络中平均池化层的输出作为局部视觉特征，将多模态网络中最后一个全连接层的输出作为多模态特征。

8.根据权利要求6所述的方法，其特征在于，所述步骤S33中，使用串联融合函数将所述输入地基云样本的全局视觉特征、局部视觉特征和多模态特征进行融合。

9.根据权利要求1所述的方法，其特征在于，所述步骤S4被实施为：

10.根据权利要求9所述的方法，其特征在于，所述支持向量机分类器为径向基核函数。