CN111428730B

CN111428730B - 弱监督细粒度物体分类方法

Info

Publication number: CN111428730B
Application number: CN201910019867.4A
Authority: CN
Inventors: 张勇东; 刘传彬; 谢洪涛; 李岩
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2022-07-08
Anticipated expiration: 2039-01-09
Also published as: CN111428730A

Abstract

本发明公开了一种弱监督细粒度物体分类方法，包括：采用注意力机制对输入图像进行一系列矩形区域图像的提取，并结合各矩形区域图像的置信度筛选出若干矩形区域图像；采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取，并进行分类预测，最后将各预测结果做集成，得到一个最终预测结果。通过采用上述方法可以显著提升分类精确度。

Description

弱监督细粒度物体分类方法

技术领域

本发明涉及人工智能与计算机视觉技术领域，尤其涉及一种弱监督细粒度物体分类方法。

背景技术

细粒度图像分类又被称作子类别图像分类，是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分，但由于子类别间细微的类间差异和较大的类内差异，较之普通的图像分类任务，细粒度图像分类难度更大。

细粒度图像分类是一项极具挑战的研究课题，为了达到满意的分类结果，许多现有的分类算法都严重依赖于人工标注信息。借助于标注框能够完成对前景对象的检测，从而排除掉背景噪声的干扰；而局部区域位置则可以用来对一些有用的局部区域进行定位，或者进行姿态对齐等，以实现局部特征的提取。然而，人工标注信息的获取代价十分昂贵，这在很大程度上制约了这些分类算法的实用性。

发明内容

本发明的目的是提供一种弱监督细粒度物体分类方法，可以显著提升分类精确度。

本发明的目的是通过以下技术方案实现的：

一种弱监督细粒度物体分类方法，包括：

采用注意力机制对输入图像进行一系列矩形区域图像的提取，并结合各矩形区域图像的置信度筛选出若干矩形区域图像；

采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取，并进行分类预测，最后将各预测结果做集成，得到一个最终预测结果。

由上述本发明提供的技术方案可以看出，通过注意力机制筛选出有区分性的局部区域，再结合分类机制进行分类预测，无需使用标注信息,仅仅依靠类别标签即可完成图像分类任务，不仅节省成本，还可以显著提升分类精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种弱监督细粒度物体分类方法的示意图；

图2为本发明实施例提供的注意力机制示意图；

图3为本发明实施例提供的分类机制示意图；

图4为本发明实施例提供的多次随机擦除示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种弱监督细粒度物体分类方法，如图1所示，其主要包括：

1、采用注意力机制对输入图像进行一系列矩形区域图像的提取，并结合各矩形区域图像的置信度筛选出若干矩形区域图像。

本发明实施例中，采用注意力机制进行矩形区域图像的提取之前，将输入图像的尺寸调整为2N*2N(例如，448*448)大小，筛选出若干矩形区域图像后，将每一矩形区域图像尺寸调整为N*N(例如，224*224)大小，提供给分类机制。

如图2所示，本步骤的优选实施方式如下：

1)采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列(例如，提取了T个)的矩形区域图像{R_t}，每一矩形区域图像对应一个置信度{S(R_t)}， t＝1,...,T。

2)按照置信度从大到小的顺序进行排序，再进行非极大值抑制，(NMS)，以剔除重合度较大的低置信度区域，从而筛选出M个矩形区域图像，作为有区分性的局部区域。

筛选出的矩形区域图像记为{R_i}，其置信度记为{S(R_i)}；分类机制会学习筛选出的每一矩形区域图像的局部特征，并给出相应矩形区域图像被判定为真实类别的概率 {P(R_i)}，其中，i＝1,...,M表示矩形区域图像的序号。

注意力机制提供的每个矩形区域图像的置信度{S(R_i)}和每个矩形区域图像在分类机制中被判定为真实类别的概率{P(R_i)}应是具有正相关性的。即，矩形区域图像的置信度越高，则在分类机制中被判定为真实类别的概率也越高，因此，{S(R_i)}和{P(R_i)}在排序上应具有一致性。

定义注意力机制损失函数为排序损失函数，优化矩形区域图像的置信度与被判定为真实类别的概率，使二者具有相同的顺序；注意力机制损失函数表示为：

f(x)＝max{1-x,0}。

上式中，r＝1,...,M。

2、采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取，并进行分类预测，最后将各预测结果做集成，得到一个最终预测结果。

如图3所示，本步骤的优选实施方式如下：

1)按照置信度大小，从M个矩形区域图像中筛选出前K个矩形区域图像，利用特征提取器分别提取每一个矩形区域图像的特征向量，所提取的特征向量依次通过一个全连接层与softmax层，得到矩形区域图像的预测结果{P^j(R_k)}，其中，P^j(R_k)表示第k个矩形区域图像被预测为第j类的概率值。

2)输入图像记为X，采用与矩形区域图像相同的方式进行处理，得到相应的预测结果P^j(X)；其中，P^j(X)表示输入图像X被预测为第j类的概率值；

3)为了能够更好的结合输入图片和局部区域的判别效果，将前K个矩形区域图像对应的特征向量，与输入图像的特征向量拼接在一起，得到拼接特征向量C，同样依次通过一个全连接层与softmax层，得到相应的预测结果P^j(C)，即拼接特征向量C被预测为第j类的概率值；

4)再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成，得到最终预测结果，其中概率最大值对应的索引index即为预测出的该输入图像的类别：

本发明实施例中，分类机制的损失函数为M个矩形区域图像、输入图像X和以及拼接特征向量C的分类损失之和，表示为：

其中，

为损失函数，若采用交叉熵损失函数，则分类机制的损失函数转换为：

其中，g代表真实类别的索引，在训练过程中，真实类别的索引是已知的。

最终，联合损失函数L_total为注意力机制损失函数L_att和分类机制损失函数L_cls之和，表示为：

L_total＝L_att+L_cls。

本发明实施例上述方案，涉及训练阶段与测试阶段，两个阶段主要过程类似，通过训练阶段不断优化注意力机制与分类机制所涉及的相关参数，优化完毕后进入测试阶段，可直接进行分类预测。

另外，本发明实施例中，在训练阶段还采用多次随机擦除的方式来实现数据增广，每次在输入图像中随机擦除一个随机大小的矩形区域图像，如图4所示，其中的白色矩形框为随机擦除的矩形区域。由于细粒度物体分类依赖于局部有区分性区域的定位和这些区域的特征学习，而多次随机擦除可以随机在图像的局部区域丢弃信息，因此多次随即擦除还可以提高细粒度物体分类在有区分性区域定位和区域特征学习上的鲁棒性，从而提升细粒度物体分类的精确度。

需要说明的是，图1～图4中所涉及的“输入图像”的内容仅为示例，即目前黑白图像形式的“输入图像”并不影响本发明的公开，同时，在实际应用时可以适用于其他内容、其他颜色的图像。

基于本发明实施例上述方案在现有数据集中进行了验证，其中在CUB-200-2011数据集上达到89.44％的精确度，在Stanford Cars数据集上达到94.3％的精确度，在FGVC-Aircraft上达到92.5％的精确度，与现有方法相比，本发明实施例上述方案显著提升了分类精确度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种弱监督细粒度物体分类方法，其特征在于，包括：

采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取，并进行分类预测，最后将各预测结果做集成，得到一个最终预测结果；

其中，所述采用注意力机制对输入图像进行一系列矩形区域图像的提取，并结合各矩形区域图像的置信度筛选出若干矩形区域图像包括：

采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列的矩形区域图像，每一矩形区域图像对应一个置信度；

按照置信度从大到小的顺序进行排序，再进行非极大值抑制，从而筛选出M个矩形区域图像，作为有区分性的局部区域；

筛选出的矩形区域图像记为{R_i}，其置信度记为{S(R_i)}；分类机制会学习筛选出的每一矩形区域图像的局部特征，并给出相应矩形区域图像被判定为真实类别的概率{P(R_i)}，其中，i＝1,...,M表示矩形区域图像的序号；

矩形区域图像的置信度越高，则在分类机制中被判定为真实类别的概率也越高，定义注意力机制损失函数为排序损失函数，优化矩形区域图像的置信度与被判定为真实类别的概率，使二者具有相同的顺序；注意力机制损失函数表示为：

f(x)＝max{1-x,0}

其中，r＝1,...,M。

2.根据权利要求1所述的一种弱监督细粒度物体分类方法，其特征在于，采用注意力机制进行矩形区域图像的提取之前，将输入图像的尺寸调整为2N*2N大小，筛选出若干矩形区域图像后，将每一矩形区域图像尺寸调整为N*N大小，提供给分类机制。

3.根据权利要求1所述的一种弱监督细粒度物体分类方法，其特征在于，采用分类机制得到一个最终预测结果的步骤包括：

按照置信度大小，从M个矩形区域图像中筛选出前K个矩形区域图像，利用特征提取器分别提取每一个矩形区域图像的特征向量，所提取的特征向量依次通过一个全连接层与softmax层，得到矩形区域图像的预测结果{P^j(R_k)}，其中，P^j(R_k)表示第k个矩形区域图像被预测为第j类的概率值；

输入图像记为X，采用与矩形区域图像相同的方式进行处理，得到相应的预测结果P^j(X)；其中，P^j(X)表示输入图像X被预测为第j类的概率值；

将前K个矩形区域图像对应的特征向量，与输入图像的特征向量拼接在一起，得到拼接特征向量C，同样依次通过一个全连接层与softmax层，得到相应的预测结果P^j(C)，即拼接特征向量C被预测为第j类的概率值；

再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成，得到最终预测结果，其中概率最大值对应的索引index即为预测出的该输入图像的类别：

4.根据权利要求3所述的一种弱监督细粒度物体分类方法，其特征在于，分类机制的损失函数为M个矩形区域图像、输入图像X和以及拼接特征向量C的分类损失之和，表示为：

其中，

其中，g代表真实类别的索引。

5.根据权利要求1或4所述的一种弱监督细粒度物体分类方法，其特征在于，联合损失函数L_total为注意力机制损失函数L_att和分类机制损失函数L_cls之和，表示为：

L_total＝L_att+L_cls。

6.根据权利要求1所述的一种弱监督细粒度物体分类方法，其特征在于，该方法还包括：在训练阶段，采用多次随机擦除的方式来实现数据增广，每次在输入图像中随机擦除一个随机大小的矩形区域图像。