CN114676777A

CN114676777A - 一种基于孪生网络的自监督学习细粒度图像分类方法

Info

Publication number: CN114676777A
Application number: CN202210306415.6A
Authority: CN
Inventors: 汲如意; 李佳盈; 张立波; 武延军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-28

Abstract

本发明公开了一种基于孪生网络的自监督学习细粒度图像分类方法。本发明首先利用注意力编码器提取图像的深度卷积特征，获取蕴含语义信息的注意力图并通过双线性池化方式编码图像特征；其次从原始图像上定位出注意力图上高响应值所在的显著区域，对显著区域进行裁切和擦除操作，从而形成不同视角的视图，以自监督的方式学习视角不变性特征；最后联合中心损失函数以及一致性损失函数，显示地约束不同视角特征，保持它们的类内一致性。本发明方法使得网络获得显著的性能增益，可以在细粒度图像分类的基线上显著提升分类准确度。

Description

一种基于孪生网络的自监督学习细粒度图像分类方法

技术领域

本发明涉及图像分类技术领域，具体涉及细粒度图像分类，尤其涉及基于孪生网络的自监督学习细粒度图像分类方法。

背景技术

随着深度学习技术的日益成熟以及社会智能化程度的不断提高，人们对计算机的分类能力提出了更高的要求，期望计算机不仅能够正确识别外表差异较大的通用图像分类的目标，还需要能够识别细粒度级别的对象。细粒度图像分类是指区分从属于同一基础类别的子类别，它在车辆追踪、商品自动结算、保护野生动植物等方面有着广泛的应用。由于获取部件和对象标注信息，需要“专家级”知识，这使得细粒度数据集的构建耗费大量人力和物力，所以目前研究重点是仅采用图像级标签信息的弱监督分类方法。由于子类别从属于同一个基础类别，所以子类别间外观极其相似，而又因背景、光照、姿态等外界环境因素导致子类别内对象外观差异较大，该任务的难点在于较小的类间差异性以及类内相似性。为了解决这个问题，现阶段采用基于注意力机制的弱监督方式定位具有可区分度的区域，结合该区域特征和整体图像特征完成分类任务，但需要训练多个子网络/模型，一个用于定位语义部件，另一个用于最后的分类预测，这种多任务模式使得网络的损失函数难以被优化到一个最优情况。再者，由于仅具有图像级别的标注信息，网络不能准确定位到语义部件所在的区域，获取的区域或多或少包含背景噪音。相比之下，编码高阶特征的方式，虽然能够增强特征表示，但是无法显示地引导模型关注细微区域内的辨识性特征。

发明内容

为了克服细粒度图像分类的难点，本发明的目的在于提供一种基于孪生网络的自监督学习细粒度图像分类方法，及电子设备和刻度存储介质。本发明首先利用注意力编码器提取图像的深度卷积特征，获取蕴含语义信息的注意力图并通过双线性池化方式编码图像特征；其次从原始图像上定位出注意力图上高响应值所在的显著区域，对显著区域进行裁切和擦除操作，从而形成不同视角的视图，以自监督的方式学习视角不变性特征；最后联合中心损失函数以及一致性损失函数，显示地约束不同视角特征，保持它们的类内一致性。本发明方法使得网络获得显著的性能增益，从而完成了本发明。

为了实现本发明的目的，本发明采用以下步骤：

1)利用注意力编码器中的骨干网络提取样本图像I的特征图F；

2)通过注意力编码器中的双线性池化模块捕捉特征图F的高阶统计信息，获取增强图像的特征向量f(r)；

3)基于注意力机制，定位样本图像I中包含关键信息的语义部件，获取样本图像I的一个裁切视角样本I_crop；

4)基于语义擦除机制，得到样本图像I的另一个视角样本：擦除视角样本I_erase，从而引导网络关注不明显但具有辨识度的语义部件；

5)通过参数共享的孪生网络架构提取两个视角的特征，分别为f_c和f_e；

6)通过自监督学习的方式，将图像I的不同视角I_crop、I_erase作为一个正样本对儿，利用自监督学习损失函数L_ssl约束两个视角特征f_c和f_e的一致性，捕捉到视角不变特征；

7)采用中心损失函数，减小网络学习到的样本的特征向量I、I_crop和I_erase与相应类中心特征C的距离，紧凑类内样本特征，增大模型的稳定性；

8)利用一致性损失函数约束全连接层权重与类别中心特征向量的相似性，维持不同视角特征f_c和f_e的类内一致性同时促使全连接层更好的将样本特征f(r)、f_c和f_e映射到类别空间；

9)全连接层将原始样本图像I以及特征f(r)、f_c和f_e统一映射到最终的类别概率分布，利用分类器中的交叉熵损失函数L_cls计算样本图像I的类别概率分布和对应真实标签的独热编码的差值，缩小差值，优化整体网络参数。

分类模型应用阶段

将待分类的目标图像输入到训练后的所述分类模型，得到该目标图像的类别。

本发明所具有的有益效果包括：

1)采用孪生网络以及自监督的方式学习图像不同视角下的视角不变特征，保持不同视角样本特征的类内一致性；

2)中心损失函数和一致性损失函数进一步约束网络学习同类样本表征的类内一致性，增强模型的稳健性以及泛化性；

3)本发明提供的基于孪生网络的自监督学习细粒度图像分类方法，可以在细粒度图像分类的基线上显著提升分类准确度。

附图说明

图1为本发明实施例所述的基于孪生网络的自监督学习细粒度图像分类方法流程。

图2为本发明基于孪生网络的自监督学习细粒度图像分类方法框架。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明做进一步的详细描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

本发明所述的基于孪生网络的自监督学习细粒度图像分类方法包括以下步骤：

步骤S1：构建注意力编码器，首先利用在大规模分类数据集上进行预训练的骨干网络提取输入图像的特征F；骨干网络的选择性广泛，可以选择残差网络(ResNet)和经典的深度学***均池化层，得到图像最终的特征向量f(r)。

步骤S2：获取不同视角的图像：裁切视角以及擦除视角。

裁切视角：首先，随机从A中选择M张特征图组成A′，如下所示，首先将M张特征图转换为概率分布a_i，

然后，采取加权求和的方式，获取包含完整语义信息的特征图D，如下所示。

接下来，通过特征图D获取图像的裁切掩码图M_D，如下所示。

最后，利用原始图像I与裁切掩码图M_D逐像素点相乘的方式，从原始图像中裁切出特征图D对应的高响应区域，从而生成裁切视角I_crop。

I_crop＝I⊙M_D

擦除视角：为了增强模型的鲁棒性，随机从注意力图中选取一张注意力图A″，将其上高响应区域的像素值赋值为0，从而擦除A″上的高响应区域生成擦除掩码图M_e，引导网络关注剩余具有可区分度的区域，如下所示。

最后，通过逐点相乘的方式获取到另一个视角的样本图像I_erase。

I_erase＝I⊙M_e

步骤S3：通过孪生网络提取两个视角的特征f_c和f_e，以自监督的学习方式维持不同视角特征的一致性。将步骤S2生成的两个视角的图像输入参数共享的孪生网络架构中，得到两个视角的特征f_c和f_e，通过自监督学习方式约束两个视角特征，如下所示。

L_ssl＝||f_c-f_e||₂

步骤S4：构建样本类别中心。首先，为数据集囊括的每个类别，建立一个中心特征向量C，其初始化服从正态分布；接着，通过中心损失函数L_ct约束每个样本特征与其类中心特征向量的距离。中心损失函数的具体计算过程如下所示，其中，f∈(f(r)，f_c，f_e)。

L_ct＝||f-C||₂

在训练过程中不断迭代，从而获取具有代表性的类中心特征向量。具体过程如下所示，其中，C和C′分别代表迭代前后f(r)所对应的真实类别中心，α为更新类中心的步长。

C′＝C+α(f(r)-C)

步骤S5：通过一致性损失函数L_cst，进一步约束不同视角的类内一致性，如下所示。其中，C_total由数据集的每个类别对应类中心特征C组成，W为全连接层权重，同样能够表示类中心特征分布。

L_cst＝||C_total-W||₂

最小化样本不同视角共享的类别中心与全连接层权重的差异，保证全连接层将不同视角样本特征映射到所属类别样本标记空间中。

步骤S6：通过分类器输出网络预测的细粒度图像类别。

步骤S7：通过随机梯度下降算法训练整个网络。当达到预先设置的轮数时，停止整个网络的训练。

步骤S8：测试网络。将目标图像，送入已训练好的网络模型中，经注意力编码器提取目标图像的特征表示，送入分类器，进而得到分类器将目标图像分类为每个类别的概率值，最高概率值所在的类别，为目标图像最终的类别标签。

实施例2

本发明实施例2提供一种电子设备，分别为存储器和处理器，其特征在于，存储有基于孪生网络的自监督学习细粒度图像分类程序被处理器执行时，使得处理器执行基于孪生网络的自监督学习细粒度图像分类方法，该方法包括如下步骤：

1)使用构建的注意力编码器提取输入图像的特征表示；

2)基于注意力以及语义擦除机制获取图像的两个不同视角样本；

3)通过孪生网络，提取不同视角样本特征并以自监督方式引导网络学习视角不变性特征；

4)采用中心损失函数约束类内样本特征距离；

5)将网络学到的样本以及其不同视角下的特征，送入分类器，获得细粒度图像类别。

实施例3

本发明实施例3提供一种计算机可读存储介质，其特征在于，所述程序被处理器执行时，使得处理器执行基于孪生网络的自监督学习细粒度图像分类方法，该方法包括如下步骤：

1)使用构建的注意力编码器提取输入图像的特征表示；

2)采用注意力机制以及语义擦除机制获取图像的两个不同视角样本；

4)采用中心损失函数约束类内样本特征距离；

以上所述仅为本公开的优选实例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于孪生网络的自监督学习细粒度图像分类方法，其步骤包括：

分类模型训练阶段，基于训练样本图像集采用步骤1)～9)训练所述分类模型；其中，所述分类模型包括第一注意力编码器、第二注意力编码器、全连接层和分类器；

1)利用第一注意力编码器提取样本图像I的特征图F；

2)所述第一注意力编码器根据所述特征图F的高阶统计信息生成增强图像的特征向量f(r)；

3)所述第一注意力编码器通过定位样本图像I中包含关键信息的语义部件，获取样本图像I的裁切视角样本I_crop；

4)所述第一注意力编码器基于语义擦除机制，得到样本图像I的擦除视角样本I_erase；

5)将裁切视角样本I_crop、擦除视角样本I_erase分别输入第二注意力编码器，得到对应的裁剪视角特征向量f_c和擦除视角特征向量f_e；所述第二注意力编码器为参数共享的孪生网络架构；

6)将裁切视角样本I_crop、擦除视角样本I_erase作为一个正样本对，利用自监督学习损失函数L_ssl约束两个视角特征向量f_c和f_e的一致性，通过自监督学习的方式训练捕捉到样本图像I的视角不变特征；

7)采用中心损失函数L_ct，减小样本图像I的视角不变特征与样本图像I所属类别的类中心特征C之间的距离；

8)将特征向量f(r)、f_c和f_e输入全连接层，得到将f(r)、f_c和f_e统一到同一类别概率；利用一致性损失函数L_cst约束全连接层权重与类别中心特征之间的相似性；

9)所述全连接层根据样本图像I、f(r)、f_c和f_e得到样本图像I的类别概率分布；然后利用分类器中的交叉熵损失函数L_cls计算样本图像I的类别概率分布和对应真实标签的独热编码的差值，通过缩小差值优化所述全连接层的权重；

分类模型应用阶段

2.根据权利要求1所述的方法，其特征在于，所述中心损失函数为L_ct＝‖f-C‖₂；其中，f∈(f(r),f_c,f_e)。

3.根据权利要求2所述的方法，其特征在于，所述一致性损失函数为L_cst＝‖C_total-W‖₂；其中，C_total由训练样本图像集的各类别对应的类中心特征C组成，W为全连接层权重。

4.根据权利要求1或2或3所述的方法，其特征在于，所述自监督学习损失函数为L_ssl＝‖f_c-f_e‖₂。

5.根据权利要求1或2或3所述的方法，其特征在于，训练过程通过中C′＝C+α(f(r)-C)对类中心特征进行更新；其中，C′代表迭代后类中心特征，α为更新类中心的步长。

6.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至5任一所述方法中各步骤的指令。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一所述方法的步骤。