CN110619369A

CN110619369A - 基于特征金字塔与全局平均池化的细粒度图像分类方法

Info

Publication number: CN110619369A
Application number: CN201910899445.0A
Authority: CN
Inventors: 龚声蓉; 周少雄; 王朝晖; 应文豪; 李菊
Original assignee: Changshu Institute of Technology
Current assignee: Jiangsu Yiyou Huiyun Software Co.,Ltd.
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2019-12-27
Anticipated expiration: 2039-09-23
Also published as: CN110619369B

Abstract

本发明公开了一种基于特征金字塔与全局平均池化的细粒度图像分类方法，包括以下步骤：步骤1、图像输入预训练的卷积神经网络的卷积层得到多通道的特征图；步骤2、所述多通道的特征图经过全局平均池化层，得到输入图像的显著图，提取目标的位置信息；步骤3、特征金字塔网络提取多通道的特征图的特征并进行预测得到信息量最大的K个局部区域；步骤4、聚合所述K个局部区域的局部特征和输入图像经过所述卷积神经网络得到的全局特征预测输出最终的识别类别。本发明方法减少背景噪声影响，增强局部区域选择鲁棒性，提高识别精度。

Description

基于特征金字塔与全局平均池化的细粒度图像分类方法

技术领域

本发明涉及一种细粒度图像分类方法，特别是涉及一种基于特征金字塔与全局平均池化的细粒度图像分类方法。

背景技术

细粒度图像识别是图像处理领域的概念，传统的图像识别一般只能识别出图像中的目标所属的大类别，称为粗粒度的图像识别。而同一大类下通常具有许多的子类别，传统的图像识别方法并不能确定目标所属的具体子类别。细粒度图像识别可以对图像中的目标进行更加细化的分类，其分类的粒度更细，要求能确定出目标在所属大类别下的具体子类别，以满足不同场景下的更高的图像识别要求。

早期的细粒度分类方法一般依赖于人工经验来手工提取特征，通常分为两步:先从图像中提取SIFT特征或者HOG等局部特征，利用VLAD或者Fisher Vector等编码模型对特征进行编码，得到所需要的特征表示，然后利用浅层神经网络或SVM等分类器对特征进行分类。但模型的泛化性较差。

基于深度学习的细粒度图像分类方法可以分为强监督和弱监督的方法两大类，二者的区别在于是否使用了包围盒或局部区域标注等人工标注信息。该类方法通常分为三个步骤：首先，使用图像的标注信息或视觉注意力等方法得到图像中的前景对象和多个局部区域，然后利用深度卷积网络分别提取卷积特征，最后将所有局部区域的特征综合起来对目标进行分类。强监督的分类方法由于人工标注信息的获取代价昂贵，使得该类方法的实用性较差，难以满足实际的应用需求。

现有细粒度识别方法大多是基于弱监督条件下的工作即不依赖人工标注信息，但在弱监督条件下准确获取图像中的对象及定位区分性局部区域变得困难。在现实场景中，目标不一定位于场景中间的位置，周围的环境可能会对目标造成遮挡、或与目标颜色相似造成干扰，或由于拍摄角度不同、目标对象的姿态的变化等，导致同一类别的图像视觉差异较大。具体存在以下两方面问题：

1、选择的局部区域背景噪声较多。图像中的目标一般处于较为复杂的环境中，比如在鸟类识别任务中，目标鸟类一般位于树枝中间，遮挡比较严重，或者树叶树干等与该目标的外观颜色较为相似，极易造成较强的干扰。现有的方法大多直接将整幅图像输入模型并提取特征，但是通过可视化实验发现，该类方法得到的局部区域一般具有较多的背景噪声，这些噪声区域提取的特征不属于目标特征，往往会对分类过程结果造成一定的影响，导致模型的细粒度图像识别效果下降。也有部分方法利用无监督的方式，比如selectivesearch方法从原始图像中提取几个较有区分性的区域，然后送入网络模型中训练并提取特征，这类通用目标获取方法对细粒度图像识别任务的目标获取不具有针对性，其提取的目标区域噪声有所减少，但仍不能满足要求，并且由于前期的计算开销较大，无监督方式生成的图像区域过多，从而导致训练时间较长，也达不到理想的识别效果。

2、特征的鲁棒性不够。细粒度图像识别具有相比普通的图像识别的特殊性，细粒度识别的子类别间通常具有较小的类间差异，并且这些差异一般存在于较小的局部区域中。但是目前的方法对细粒度图像识别的目标对象提取的特征鲁棒性不够。传统的手工设计的特征需要基于专家经验来设计，在具有不稳定性的同时，手工设计的特征也难以对图像中的区分性信息进行有效表示，且该类方法的适应性一般较差，当方法的操作对象从一个领域切换到另一领域时，效果会急速下降，因此在实用性上大打折扣。现有的基于深度学习的方法设计的特征大多对该类任务的针对性不够，其一般是直接利用VGGNet或者ResNet等深层神经网络来进行特征提取，在提取目标的全局特征时能取得不错的效果，但是在细节信息的表示方面能力不足。而细粒度图像识别任务的图像之间的差异很多情况下都是在微小的细节之中，因此造成识别效果不佳。并且在当图像中的目标尺寸变化较大时，不能很好地适应性提取鲁棒的特征，因此达不到较好的效果。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种基于特征金字塔与全局平均池化的细粒度图像分类方法，采用较少的计算开销解决目标定位区域的噪声问题，并提高目标对象提取的特征鲁棒性。

本发明技术方案是这样的：一种基于特征金字塔与全局平均池化的细粒度图像分类方法，包括以下步骤：

步骤1、图像输入预训练的卷积神经网络的卷积层得到多通道的特征图；

步骤2、所述多通道的特征图经过全局平均池化层，得到输入图像的显著图，提取目标的位置信息；

步骤3、特征金字塔网络提取多通道的特征图的特征并进行预测得到信息量最大的K个局部区域；

步骤4、聚合所述K个局部区域的局部特征和输入图像经过所述卷积神经网络得到的全局特征预测输出最终的识别类别。

进一步地，所述步骤2包括以下步骤：步骤2.1、全局平均池化层将每个特征图映射为一个神经元，并连接softmax进行训练，预测类别；步骤2.2：训练完成后，将神经元对应的概率最高的类别的权重，与所述多通道的特征图分别相乘并累加，得到的显著图。

进一步地，所述步骤3包括以下步骤：步骤3.1、特征图输入特征金字塔网络生成N种尺度的特征图，N为不小于3的自然数；步骤3.2、将步骤3.1得到的特征图中的上层特征图进行上采样与下层特征图经过卷积核后进行融合，得到N种尺度的融合特征图；步骤3.3、在N种尺度的融合特征图上选取不同大小的候选区，经过步骤二生成的包围盒过滤后进行预测并按照其激活值大小进行排序得到局部区域，所述目标包围盒是取显著图中的最大连通区域并设定阈值得到目标的具***置而生成。

进一步地，所述步骤3预测得到信息量最大的K个局部区域采用排序一致损失进行优化，使局部区域分类预测结果与特征金字塔网络得到的激活值大小具有相同的排序。

进一步地，所述采用排序一致损失进行优化是以铰链损失函数进行优化，设所述K个局部区域为R＝{R₁,R₂,…,R_K}，按激活值从高到低进行排列，所述K个局部区域经过特征金字塔网络预测得到的激活值分别为S＝{S₁,S₂,…,S_K}，所述K个局部区域经过卷积神经网络预测得到的概率为P＝{P₁,P₂,…,P_K}，排序损失的定义如下：

S_i和S_j为激活值，

铰链损失函数f(x)为：f(x)＝max{1-x，0}。

本发明与现有技术相比的优点在于：

本发明通过保留卷积神经网络的全部卷积层，将最后一个全连接层替换成全局平均池化层(GAP)，使网络获得了优秀的目标定位能力。最后一个卷积层的每个特征图在经过GAP后都映射为一个神经元，这些神经元连接一个softmax分类层后，得到各个类别的输出概率，将卷积层特征图按对应类别的神经元权重分别相加，得到对应于各个类别的显著图。得到显著图后，设定一个显著性阈值，生成目标的包围盒。之后目标的局部区域候选在此包围盒内进行，这大大减少背景噪声对特征提取以及模型分类的干扰。并且提出的方法与原特征提取网络共享卷积层，仅增加一个GAP层，只增加极少的计算开销。

采用特征金字塔网络来进行特征提取。构建的特征金字塔的原理是就将高层的低分辨率、高语义信息的特征与低层的高分辨率、低语义信息特征进行融合，得到具有较高语义并且较高分分辨率的特征图，并在融合后得到的多个尺度的特征图上进行预测，这使得模型在基本不增加计算量的情况下，大幅增强了对图像中的小目标的处理能力，进一步提高细粒度图像识别结果的精度。

附图说明

图1为本发明方法总体框架流程示意图。

图2为运用全局平均池化得到目标显著图的流程示意图。

图3为特征金字塔结构示意图。

图4为本发明方法在CUB-200-2011数据集上的目标定位结果示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

本实施例涉及的基于特征金字塔与全局平均池化的细粒度图像分类方法的总体框架如图1所示。具体步骤如下：

步骤2、多通道的特征图经过全局平均池化层，得到输入图像的显著图，提取目标的位置信息；

步骤4：聚合所述K个局部区域的局部特征和输入图像经过所述卷积神经网络得到的全局特征预测输出最终的识别类别。

其中，步骤二是通过用全局平均池化层来替换基础网络ResNet-50的全连接层，保留全部卷积层，根据ImageNet-1k的类别初步预测图像所属类别，并通过类激活映射方法得到显著图。显著图将目标在图像中的位置以激活值的方式显示出来，激活值越高的位置，包含目标的可能性越大。可取显著图中的最大连通区域并设定阈值的方式，来得到目标的具***置，生成目标包围盒，得到的包围盒区域的背景噪声较少。通过这种方式进而在步骤三中利用得到的目标包围盒信息进行候选局部区域过滤。得到显著图的方法如图2所示。步骤2可以进一步包括以下步骤：

步骤2.1、多通道特征图经全局平均池化层将每个特征图映射为一个神经元，并连接softmax进行训练，预测类别；

步骤2.2、训练完成后，将神经元对应的概率最高的类别的权重，与多通道的特征图分别相乘并累加，得到目标的显著图。

由于深度卷积网络的不同层级的特征图具有较大的语义差异，较高分辨率的特征图的低级特征具有更多的细节信息，有助于模型区分相似图像，提高细粒度分类的准确率.特征金字塔利用卷积网络自身的特征层次结构的金字塔形状，将金字塔上层的低分辨率的高语义特征与金字塔下层的高分辨率、低语义特征进行融合，得到具有较高语义信息并且相对保留了较多细节信息的特征，并在几种不同尺度的特征图上对局部区域进行独立的预测。步骤3特征金字塔的结构如图3所示，步骤3进一步包括以下步骤：

步骤3.1、特征图输入特征金字塔网络进一步生成三种尺度的特征图；

步骤3.2、将上层特征图进行二倍上采样与下层特征图经过1×1卷积核后进行融合，得到三种尺度的融合特征图；

步骤3.3、在三种尺度的融合特征图上选取不同大小的候选区，经过步骤二生成的包围盒过滤后进行预测，并按照其激活值大小进行排序。

此时，对于每张图像，从特征金字塔网络以及显著性提取网络过滤得到的若干个局部区域及其激活值，从中选择K个激活值最高的局部区域并将其缩放为224×224大小，然后重新送入ResNet-50网络模型中进行特征提取，最后接一个全连接层进行分类。为了对选择的局部区域进行优化，本方法采用排序一致损失进行优化，使得此时的局部区域分类预测结果与特征金字塔网络得到的激活值大小具有相同的排序，这样将使选择的局部区域最具有区分性。引入铰链损失函数来优化模型参数以选取最优局部区域。

设K个局部区域为R＝{R₁,R₂,…,R_K}，按激活值从高到低进行排列，其经过特征金字塔网络预测得到的激活值分别为S＝{S₁,S₂,…,S_K}。这K个局部区域经过ResNet-50网络预测得到的概率为P＝{P₁,P₂,…,P_K}。铰链损失函数可以看做是一种成对排序损失函数，它要求在S中具有先后顺序的元素S_i和S_j，若S_i>S_j，则在P中也要有相同的先后顺序P_i>P_j，否则将进行惩罚。本方法中的排序损失的定义如下：

其中，铰链损失函数f(x)定义为：

f(x)＝max{1-x，0}

在模型训练方面，将K个局部区域的排序损失及其在ResNet-50上的分类损失，以及输入图像的分类损失的总和作为总的损失来优化模型参数。ResNet-50作为基础网络，参数始终共享。对本发明方法进行测试时，每张输入图像的预测类别由输入图像及K个局部区域在ResNet-50上的分类结果得到。

本发明的论证实验使用数据集是：CUB-200-2011，Stanford Cars。

CUB-200-2011是鸟类数据集，该数据集是目前细粒度图像识别领域最常用，也是最经典的数据集。数据集中共有11788张鸟类图像，共分为200个类别。其中训练图像有5994张，测试图像有5794张，每种鸟类有大约30张训练图像和11～30张测试图像。

Stanford Cars是美国斯坦福大学的Li-Feifei教授团队提出的车辆数据集，也是目前细粒度图像识别最常用的数据集之一。该数据集中共有16185张车辆图像，并按照不同品牌、年份和车型分为196个车辆类别。其中训练图像有8144张，测试图像有8041张，平均每种车辆类别有24～81张训练图像以及24～83张测试图像。以上数据集的详细信息见下表：

另外，实验硬件环境：Ubuntu 16.04，Telsa-P100显卡，显存12G，Core(TM)i7处理器，主频为3.4G，内存为16G。

代码运行环境：深度学习框架(Pytorch-0.4.1)，Python3.5。

实验结果如下：

选择Accuracy作为评价指标来评估实验结果。对于不同的语义分割方法，在相同的实验环境下进行训练和评估。

采用较深的深度神经网络ResNet-50作为的网络骨干。ResNet-50网络在ImageNet-1k数据集上预先训练，这样可以节省大量模型初期的参数训练时间，并且减轻模型过拟合。在训练期间，采用SGD作为模型优化器，采用多步学习率的方式设置学习率，初始学习率为0.001，在第60次和第100次迭代后，学习率下降为原来的1/10。设置模型的权重衰减为10^-4，动量设置为0.9，训练批次的数据大小设置为16。在实验中应用Cross-entropyLoss交叉熵损失作为分类损失函数。数据集中的图像预裁剪为448×448大小。

为了验证本文提出的目标定位方法的有效性，首先在CUB-200-2011鸟类数据集上进行了实验。选择这一数据集的原因是，鸟类目标所在处的环境通常更为复杂，除了鸟类目标本身更小，也因为鸟类自身具有在空中飞翔、树上栖息、水中游动等不同姿态，因此常常伴有遮挡，姿态变化，相似背景等较强的干扰因子，从而相比车辆数据集Stanford Cars来说，准确定位的难度更大。通过本发明方法取得的目标定位的结果如图4所示。图中第一行是处理为448×448大小的原图像，第二行为得到的显著图，最后一行是生成的目标对象包围盒。对于第一列图片，目标对象位于大量的树枝中间；第三列图片，树木的颜色与目标对象的身体颜色非常相近，均具有很强的干扰性。可以看到，基于本发明的方法得到的目标显著图及包围盒都较为准确。

另外，在CUB-200-2011和Stanford Cars数据集上对本发明方法进行了验证。采用ResNet-50卷积神经网络作为模型的基础网络。ResNet-50网络有50个卷积层，残差模块采用的是“瓶颈”结构，模块间采用跳跃连接的方式，相比VGGNet的特征提取能力更强。因为细粒度图像数据集一般规模较小，直接训练易产生过拟合从而降低模型性能，将模型先在ImageNet-1k大规模数据集上进行预训练，这样也可加速前期训练过程且不易陷入局部最优解。

为了提高方法的实用性，本发明不使用额外的标注信息，采用全局平均池化的方式来实现弱监督条件下的目标对象定位，进一步获取目标对象的包围盒。为了提升模型对局部细节信息的表示能力，采用特征金字塔网络对ResNet-50网络输出的特征图进行融合。在得到各候选区域的激活值后，选取其中K个最高激活区域再次送入ResNet-50网络进行类别预测。之后使用NMS算法来去除冗余局部区域，并计算局部区域的排序一致损失，用来优化局部区域的选择，最后的预测结合选取的多个局部区域与整体图像分类结果。在CUB-200-2011与Stanford Cars数据集上的实验结果如表1所示。可以看到，本发明方法在两个数据集上的识别精度Accuracy均高于目前流行的一些方法，特别是在CUB-200-2011数据集上，相比其他方法具有明显优势。

表1在CUB-200-2011和Stanford Cars数据集上的结果

在本发明方法，基于全局平均池化的方法能很好地得到目标显著图，进而确定目标位置，使得下一步选择的局部区域背景噪声更少，并减少了计算开销。进一步使用特征金字塔网络来提取更加鲁棒的特征，这一模块将多尺度特征进行分级融合，增强了低级特征的语义性，使得网络模型能捕获到更多的细节信息，从而找到更具区分性的局部区域，最终提高了模型的识别效果。本发明方法在CUB-200-2011和Stanford Cars数据集上的定量实验结果证明了方法的有效性。

Claims

1.一种基于特征金字塔与全局平均池化的细粒度图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征金字塔与全局平均池化的细粒度图像分类方法，其特征在于，所述步骤2包括以下步骤：步骤2.1、全局平均池化层将每个特征图映射为一个神经元，并连接softmax进行训练，预测类别；步骤2.2：训练完成后，将神经元对应的概率最高的类别的权重与所述多通道的特征图分别相乘并累加，得到的显著图。

3.根据权利要求1所述的基于特征金字塔与全局平均池化的细粒度图像分类方法，其特征在于，所述步骤3包括以下步骤：步骤3.1、特征图输入特征金字塔网络生成N种尺度的特征图，N为不小于3的自然数；步骤3.2、将步骤3.1得到的特征图中的上层特征图进行上采样与下层特征图经过卷积核后进行融合，得到N种尺度的融合特征图；步骤3.3、在N种尺度的融合特征图上选取不同大小的候选区，经过步骤二生成的包围盒过滤后进行预测并按照其激活值大小进行排序得到局部区域，所述目标包围盒是取显著图中的最大连通区域并设定阈值得到目标的具***置而生成。

4.根据权利要求1所述的基于特征金字塔与全局平均池化的细粒度图像分类方法，其特征在于，所述步骤3预测得到信息量最大的K个局部区域采用排序一致损失进行优化，使局部区域分类预测结果与特征金字塔网络得到的激活值大小具有相同的排序。

5.根据权利要求4所述的基于特征金字塔与全局平均池化的细粒度图像分类方法，其特征在于，所述采用排序一致损失进行优化是以铰链损失函数进行优化，设所述K个局部区域为R＝{R₁,R₂,…,R_K}，按激活值从高到低进行排列，所述K个局部区域经过特征金字塔网络预测得到的激活值分别为S＝{S₁,S₂,…,S_K}，所述K个局部区域经过卷积神经网络预测得到的概率为P＝{P₁,P₂,…,P_K}，排序损失的定义如下：

S_i和S_j为激活值，

铰链损失函数f(x)为：f(x)＝max{1-x，0}。