CN112381176A

CN112381176A - 一种基于双目特征融合网络的图像分类方法

Info

Publication number: CN112381176A
Application number: CN202011413120.6A
Authority: CN
Inventors: 何凯; 高圣楠; 马希涛; 李大双
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-19
Anticipated expiration: 2040-12-03
Also published as: CN112381176B

Abstract

本发明公开了一种基于双目特征融合网络的图像分类方法，所述方法包括：将处理后的训练图像按批次输入到双目特征融合网络中，所述网络包括：深层通道用于提取图像的细节特征，浅层通道用于提取图像的轮廓特征；将特征融合后送入Softmax分类器中，选取概率值最大的类别作为图像的预测值，将预测值与标签值进行比较计算得到损失函数值，将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数；将图像分类数据集中所有训练图像传入双目特征融合网络进行训练，将双目特征融合网络达到最拟合程度时的网络模型保存为.ckpt文件，将测试图像输入到保存的模型中进行测试，最终得到整体的准确率值。本发明提高了图像的分类准确率。

Description

一种基于双目特征融合网络的图像分类方法

技术领域

本发明涉及图像分类领域，尤其涉及一种基于双目特征融合网络的图像分类方法。

背景技术

图像分类是根据输入图像的不同特征来实现不同类别图像的自动划分，其在目标检测、物体识别^[1]等领域都有着广泛应用。在过去几十年中，众多学者在该领域进行了大量研究，但仍无法满足实际需求。图像分类主要存在干扰信息较多、图像部分失真等难点^[2]，这都给分类任务带来了较大的挑战。

早期的图像分类方法侧重于人工设计图像特征^[3]，这种方法需要通过人工操作来标注目标特征，不仅耗费人工成本，而且泛化能力较差，不能在实际工程中大范围推广应用，具有较大的局限性。随着科学技术的不断发展，人们尝试利用计算机强大的数据处理和计算能力，来模仿人类对图像的观察和理解方式，实现对目标图像的自动分类。深度学习^[4]作为机器学习领域的重要分支，为图像分类领域提供了新的思路和解决方案。深度学习能够模拟人脑处理方式^[5]，具有强大的自主学习和抽象表达能力，它不需要人工设计，能够自动地从数据中学习目标特征，同时模拟大脑的认知方式，获得多层次的特征表达，最大限度地利用特征信息实现对图像的自动分类。与传统的分类方法相比，基于深度学习的图像分类方法减少了人工标注过程，具有更好的泛化能力和特征表达能力，分类准确率更高，具有更广泛的应用场景。

计算机硬件和大数据技术的飞速发展，为深度学习提供了硬件基础和技术支撑。作为深度学习算法中最常用的方法之一，卷积神经网络^[6]算法表现出的强大的自主学习和特征提取能力，为图像分类提供了新的研究方向。

发明内容

本发明提供了一种基于双目特征融合网络的图像分类方法，本发明提高了图像的分类准确率，详见下文描述：

一种基于双目特征融合网络的图像分类方法，所述方法包括：

将处理后的训练图像按批次输入到双目特征融合网络中，所述网络包括：深层通道用于提取图像的细节特征，浅层通道用于提取图像的轮廓特征；

将特征融合后送入Softmax分类器中，选取概率值最大的类别作为图像的预测值，将预测值与标签值进行比较计算得到损失函数值，将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数；

将图像分类数据集中所有训练图像传入双目特征融合网络进行训练，将双目特征融合网络达到最拟合程度时的网络模型保存为.ckpt文件，将测试图像输入到保存的模型中进行测试，最终得到整体的准确率值。

其中，所述方法还包括：

在网络训练过程中根据损失函数值的变化情况动态调整学习率，自适应指数学习率为：

式中，r_i代表第i次迭代网络学习率，r₁代表初始学习率，e^-ki是指数调整量，k为指数常量，L_i-1代表第i-1次迭代损失函数值，L_i-2代表第i-2次迭代损失函数值。

进一步地，所述浅层通道由两个卷积层和一个卷积模块组成；

提取特征后，一路经注意力模块传递给深层通道，进行多尺度融合；另一路与深层通道提取的多尺度特征进行融合，共同实现最终的图像分类。

其中，所述深层通道包括特征提取和多尺度融合；

特征提取部分直接从原始图像中提取特征，经多次卷积后获得图像细微特征；多尺度融合将提取到的细微特征与来自浅层通道的粗糙特征进行融合，增强特征的空间表达能力。

本发明提供的技术方案的有益效果是：

1、本发明综合考虑到了卷积神经网络不同层提取到的特征各异，浅层可以提取到丰富的轮廓信息，深层可以提取到细微特征信息，模拟双目识物的过程，采用双通道的形式分别获得不同的信息，再将多种信息进行融合作为最终的分类依据；

2、本发明提出的深层通道利用多尺度卷积获得不同感受野下的特征信息，多尺度卷积主要由四路并行通道组成，每路的卷积核感受野大小不同，经四路提取得到的信息进行融合后可以增强特征信息的空间表达能力；

3、本发明可以在国际公开的图像分类数据集(CIFAR-10和CIFAR-100)上进行实验仿真，分类准确率分别达到95.92％和78.17％；明显高于现有经典方法，验证了本发明的有效性。

附图说明

图1为一种基于双目特征融合网络的图像分类方法的流程图；

图2为网络结构图；

图3为卷积模块的结构图；

图4为数据集CIFAR-10部分图像；

图5为本发明的网络模型在数据集CIFAR-10上的训练测试准确率图；

图6为本发明的网络模型在数据集CIFAR-10上的损失函数图；

图7为在数据集CIFAR-10上得到的混淆矩阵示意图。

表1为数据集CIFAR-100的部分类别；

表2为验证本方法各部分有效性的消融实验对比研究；

表3为本发明方法与本领域其他经典分类方法的对比实验。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于双目特征融合网络的图像分类方法，参见图1，该方法包括以下步骤：

101：获取国际公开图像分类数据集；

102：受限于样本数量较少，且为了提高图像的多样性，对数据集中的训练图像进行预处理，主要包括对每张图像进行随机裁剪、翻转等操作；

103：将处理后的训练图像按批次输入到双目特征融合网络中，网络结构如图2所示。该网络主要由深浅两个通道组成，深层通道主要提取图像的细节特征，浅层通道主要提取图像的轮廓特征，将特征进行融合后送入Softmax分类器中获得各类别的概率值，选取概率值最大的类别作为图像的预测值，将预测值与图像的标签值进行比较计算得到损失函数值，将损失函数值按随机梯度下降法进行反向传播更新网络各层的参数；

104：将数据集中所有训练图像传入双目特征融合网络进行训练记为一次迭代，经过多次迭代后，获得模型的最优参数，双目特征融合网络达到最拟合程度，将此时的网络模型保存为.ckpt文件，该文件中包含了网络各层的参数值。将测试图像输入到保存的模型中进行测试，最终得到整体的准确率值。

其中，步骤101的图像分类数据集包括：CIFAR-10和CIFAR-100。

1)CIFAR-10数据集：CIFAR-10数据集是由Alex Krizhevsky、Geoffrey Hinton和Vinod Nair提出的图像分类数据集，该数据集包含60000张，共10个类别的三通道RGB彩色图像，每种类别共6,000张，图像分辨率为32*32，格式为jpg。每一类图像随机抽取1,000张进行测试，其余5,000张用于训练。部分图像如图4所示。

2)CIFAR-100数据集：CIFAR-100数据集是CIFAR-10数据集的延伸，该数据集共有60,000张彩色图像，分为20个大类，每个大类包含5个子类，一共100个子类，每个子类包含600张图像。每个子类中随机选取500张作为训练图像，另外100张作为测试图像。部分类别如表1所示。

表1 CIFAR-100数据集部分类别示例

图4为CIFAR-10数据集示例，其中，每一行为一个类别，由上到下依次为：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。

为了计算标签值和与预测值的偏离程度，本方法采用交叉熵作为损失函数，得到损失函数值后，根据随机梯度下降法从输出层到输入层逐层进行参数更新，提高网络模型的拟合程度。

学习率是用于控制神经网络权值调整的速度。学习率越大，权值调节幅度越大，越容易丢失部分最优值，同时网络损失函数值变化越大，网络不稳定；学习率越小，权值调节幅度越小，网络容易陷入局部最优，网络损失函数值变化越小，网络训练速度越慢，不容易收敛。因此，选择合适的学习率，对于网络收敛速度和网络分类性能具有重要意义。

本发明实施例中还设计了一种自适应指数学习率方法，该方法是一种动态的学习率更新方式，在网络训练过程中根据损失函数值的变化情况动态调整学习率，使得网络能够逼近最优解；在不增加网络深度的情况下，提升了模型性能。自适应指数学习率可表示为：

式中，r_i代表第i次迭代网络学习率，r₁代表初始学习率(设为0.2)，e^-ki是指数调整量，k为指数常量，L_i-1代表第i-1次迭代损失函数值，L_i-2代表第i-2次迭代损失函数值。

实验所用计算机配置为：CPU:Intel Core i7-7800X，CPU内存大小为64G，GPU型号为GTX 1080，显存大小为11G；Linux16.04***；Python编程环境，使用tensorflow框架对数据集分类。实验采用批处理方式，图像批量大小为128，动量项衰减设为0.9，迭代200次，初始学习率设为0.2，指数常量设为0.031。

综上所述，本发明实例通过上述步骤101-步骤104可以显著提升分类精度。

实施例2

下面结合具体的实例、计算公式、图2-图3进行进一步的介绍，详见下文描述：

201：本发明方法结构：

如图2所示，本发明的网络模型主要由深浅两个通道组成，其中，深层通道共有17层，包括：特征提取12层、多尺度融合5层，用于模拟视觉信息在空间通路的传递过程，负责提取目标图像的细微特征；浅层通道共有4层，用于模拟视觉通路的内容通路，负责提取粗糙特征信息。利用浅层通道提取特征后，一路经注意力模块传递给深层通道，进行多尺度融合；另一路直接与深层通道提取的多尺度特征进行融合，共同实现最终的图像分类。

202：深层通道：

深层通道由两部分组成：特征提取和多尺度融合；其中，特征提取部分直接从原始图像中提取特征，经多次卷积后获得图像细微特征；多尺度融合部分将提取到的细微特征与来自浅层通道的粗糙特征进行融合，可以增强特征的空间表达能力。

特征提取部分包含一个卷积核大小为3*3的卷积层、一个卷积核大小为1*1的卷积层和五个卷积模块。

在每一个卷积层后，采用激活函数对输出特征进行处理，以增强网络的非线性表达能力。为降低计算量，同时解决梯度消失和神经元死亡问题，本模型采用Leaky ReLu(LReLU)作为激活函数，其表达式为：

LReLU＝max(x,0)+αmin(x,0) (2)

式中，x表示激活函数的输入特征，α是输入特征的负值坡度系数，设为0.01。

在卷积层con2_d之前，每层卷积运算输出64个特征图；为减少参数量，提高网络效率，使用1*1卷积核，将64个特征图映射为32个；再经过4个卷积模块，将特征图增加到256个，以增加网络的非线性表达能力。

深层网络能提取到更加细微的图像特征，局部信息表征能力更强，但缺少不同感受野，不能提取丰富的空间几何特征信息。本方法实施例采取多尺度融合的方式来解决这一问题，将提取到的图像特征，与经过SE(压缩和激励)注意力模块加权后的浅层通道特征相融合，共同作为输入特征；采用1*1卷积核，将320个输入特征降低到160个。多尺度卷积共采用4种卷积核，分别是1*1、3*3、5*5和7*7，以获得不同感受野的特征信息。受VGG模型^[7]启发，采用两个3*3串行代替5*5，采用三个3*3串行代替7*7，可以在保证效果的同时，减小计算量；最后使用一个1*1卷积核，将多尺度卷积特征进行整合。与单卷积相比，多尺度卷积增加了对深层网络细微信息的空间特征提取能力，有助于提升网络性能。

203：浅层通道：

浅层通道由两个卷积层和一个卷积模块组成；由于层数较浅，该通道只能从原图像中提取位置、轮廓等粗糙特征；将特征一路传到深层通道多尺度卷积模块，采取注意力模块对其进行加权，以减小轮廓外部信息的干扰；另一路经一个1*1的卷积处理后，与深层通道的多尺度特征信息一起作为最终的分类特征。由此可见，本方法网络一方面经深层通道提取图像的细微特征，另一方面经浅层通道提取图像的粗糙特征，将两者结合起来进行分类，有助于提取更加丰富的图像特征，提高模型分类性能。

204：卷积模块；

卷积模块由两个卷积核大小为3*3的卷积层串行组成。为了方便网络反向传播时的参数更新，在两个卷积层上加入一个直连通道，卷积模块如图3所示。

卷积层运算过程可表示为：

F_l＝ω_l*F_l-1+b_l (3)

式中，F_l表示第l层输出特征，ω_l表示本层卷积核，即f个z×z大小的参数矩阵，经卷积运算后输出f个特征图；边界F_l-1表示本层的输入特征图，b_l表示本层偏置参数。

卷积模块的运算过程可表示为：

Output＝Con(Con(Input))+Input (4)

式中，Output表示卷积模块输出特征图，Con表示卷积运算，Input表示卷积模块的输入特征图。

实施例3

下面结合图5-图7，表2-表3，对实施例1和2中的方案进行进一步地介绍，详见下文描述：

采用本发明方法，在数据集CIFAR-10上，其训练和测试准确率如图5所示，损失函数如图6所示。其中，横坐标代表迭代次数，纵坐标分别代表准确率(百分制)和损失函数值，实线代表训练曲线，虚线代表测试曲线。网络训练过程大致可分为三个阶段：

1)初始阶段学习率较大，采用自适应指数学习率可迅速调整网络的权重参数，准确率提升迅速，损失函数下降明显；

2)中间阶段，网络准确率波动提升，损失函数波动下降；

3)训练曲线达到稳定，损失函数值平稳下降，网络准确率有微小波动并最终趋于稳定。

为了验证本方法的网络模型中各部分结构的有效性，分别采用不同结构的网络，在CIFAR-10数据集上进行训练和测试，测试准确率如表2所示。

表2本发明方法各模块性能对比

从表2中可以看出，“不含浅层通道”，仅凭深层通道提取细微特征，其分类准确率比本发明方法低1.45％，证明了增加浅层通道的必要性；此外，“不含注意力机制”的分类准确率比本发明方法低0.89％；“不含特征提取模块”降低了模型的非线性表达能力，准确率比本发明方法低1.56％；此外，由于深层卷积核感受野较小，提取到的细微特征局部信息过多，缺乏空间表达能力，因此“不含多尺度卷积部分”的分类准确率比本发明方法低2.74％，证明了采用多尺度卷积的必要性。

为了验证本发明中模型的有效性，分别在数据集CIFAR-10和CIFAR-100上进行测试，并与当前经典深度学习图像分类模型DTN-ResNet^[8]，Fitnet4-LSUV^[9]，SO-PCNN^[10]，B-CNN^[11]，ResNet+ELU^[12]，Evolution^[13]，MCCT^[14]，以及SRM-ResNet^[15]进行了比较，其top-1分类准确率如表3所示。

表3不同模型识别准确率对比(％)

从表中可以看出，在所有模型中，本发明方法在两个数据集上的分类准确率均为最高。其中，方法DTN-ResNet、ResNet+ELU、SRM-ResNet是利用残差模块组成的网络进行特征提取器，而本发明方法采用了特征融合方法，获得了更高的准确率。方法B-CNN、MCCT采用双通道并行网络来提取特征信息，而本发明方法更加符合人眼视觉特性，采用深浅通道分别提取细微和粗糙特征并相互补充并提取多尺度信息的模式，因此特征信息利用更加充分。方法LSUV、SO-PCNN采用普通的卷积网络形式，受限于网络模型本身，无法解决网络层数加深带来的梯度消失问题，而本发明方法则较好地解决了上述问题。此外，虽然方法Evolution在训练过程中可以通过复杂的调参来获得更理想的网络结构，但本发明方法表现出了更好的特征信息提取和融合能力，且结构设计的复杂度和深度远低于方法Evolution。

图7为采用本发明方法在CIFAR-10数据集上的分类混淆矩阵。从图7可以看出，由于鸟和飞机、猫和狗、鹿和马、汽车和卡车等轮廓相近、特征近似，较难区分。而在船只、青蛙等类间差距较大的类别上准确率较高。但从整体上看，对于不同类别，其识别准确率均高于95％，证明了本文方法的准确性。

参考文献：

[1]Ouyang W,wang X G.Joint Deep Learning for Pedestrian Detection[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV),2013:2056-2063.

[2]杨真真，匡楠，范露，等.基于卷积神经网络的图像分类算法综述[J].信号处理，2018,34(12):1474-1479.

[3]杨泽明，刘军，薛程，等.卷积神经网络在图像分类上的应用综述[J].人工智能与机器人研究，2018,7(1):17-24.

[4]Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Datawith Neural Networks[J].Science,2006,313(5786):504-507.

[5]卢宏涛，张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理，2016,31(1):1-17.

[6]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based Learning Applied toDocument Recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[7]Simonyan K，Zisserman A.Very Deep Convolutional Networks for Large-scale Image Recognition[C]//International Conference on LearningRepresentations,ICLR 2015:1123-1131.

[8]Fan L,Zhang T,Zhao X,Wang H,Zheng M.Deep Topology Network:AFramework based on Feedback Adjustment Learning Rate for Image Classification[J].Advanced Engineering Informatics,2019,23(8):432-441.

[9]Mishkin D,Matas J.All you need is a good init.4th InternationalConference on Learning Representations[C]//International Conference onLearning Representations ICLR,2016:1–13.

[10]Assiri,Y.S.(n.d.).Stochastic Optimization of Plain ConvolutionalNeural Networks with Simple methods.[C]//15th International Conference onMachine Learning and Data Mining,MLDM 2019,New York,USA:2019:833-844.

[11]Lin T Y，Roychowdhury A，Maji S.Bilinear CNN Models for Fine-grained Visual Recognition[C]//IEEE International Conference on ComputerVision,ICCV,Santiago,Chile,2016:1449-1457.

[12]Shah A,Kadam E,Shah H,Shinde S,Shingade S.Deep Residual Networkswith Exponential Linear Unit[C]//ACM International Conference ProceedingSeries,2016,September 21-24:59–65.

[13]Real E,Moore S,Selle A,Saxena S,Suematsu Y L,Tan J,Le Q V,KurakinA.Large-scale Evolution of Image Classifiers[C]//34th InternationalConference on Machine Learning,ICML 2017,6:4429–4446.

[14]MCCT:A Multi-channel Complementary Census Transform for ImageClassification.[J]Signal Image and Video Processing,2018,12(2):281-289.

[15]Lee H,Kim HE,Nam H.SRM:A Style-based Recalibration Module forConvolutional Neural Networks[C]//IEEE International Conference on ComputerVision,ICCV2019,Seoul,Korea,2019:1854-1862.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双目特征融合网络的图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法，其特征在于，所述浅层通道由两个卷积层和一个卷积模块组成；

4.根据权利要求1所述的一种基于双目特征融合网络的图像分类方法，其特征在于，所述深层通道包括特征提取和多尺度融合；