CN112784921A

CN112784921A - 任务注意力引导的小样本图像互补学习分类算法

Info

Publication number: CN112784921A
Application number: CN202110150081.3A
Authority: CN
Inventors: 程塨; 李瑞敏; 郎春博; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-11

Abstract

本发明提供了一种任务注意力引导的小样本图像互补学习分类算法。首先，设计了一个双分支的多部位互补特征学习模块，融合多个显著部位的判别特征，使网络深度探索和利用特征图的整个空间区域，从而获取更多的判别信息；然后，引入了任务相关的注意力引导模块，通过强化或抑制元学习者提供的部分知识，找出与当前任务相关的代表性特征，通过这种方法使神经网络获得区分当前输入类别的最重要特征的能力。通过将多部位互补特征学习模块和任务相关的注意力模块相结合，可以深入挖掘与当前输入类别最相关的互补特征，提高网络的鉴别能力，在少量训练样本的条件下实现较高的分类精度，具有较高的分类准确度和较好的鲁棒性。

Description

任务注意力引导的小样本图像互补学习分类算法

技术领域

本发明属图像处理技术领域，具体涉及一种任务注意力引导的小样本图像互补学习分类算法，可以实现小样本条件下新类别图像的快速分类。

背景技术

近年来深度学习在许多数据密集型的应用中取得了显著的效果，如目标检测、图像分类和语义分割等。然而深度学习技术的性能严重依赖于标注数据量的大小，并且缺乏在低数据状态下的学习能力和泛化能力。在现实生活中，标注数据的大量搜集存在一定的困难，极大的限制了深度学习的进一步发展。一方面，在某些特定的领域，如军事领域，由于种种限制很难获取大量的样本。另一方面，海量数据的标注需要大量的人力和物力。特别在某些专业领域，数据的标注工作需要行业内的专家进行，给大量数据的标注工作带来了极大的困难。小样本学习利用先验知识，在面对仅有少量标注数据的新类别时具有较高的分类准确率。

目前已有的小样本图像分类方法，概括起来可以分为基于模型的小样本图像分类算法、基于度量的小样本图像分类算法、基于优化的小样本图像分类算法和基于数据扩增的小样本图像分类算法四大类。基于模型的方法旨在通过设计模型结构快速更新少量样本的参数，并直接建立输入与预测之间的映射函数，然而传统的梯度下降的算法参数量较多，无法快速实现优化。基于度量的方法主要学习图像到嵌入空间的映射，并且使该空间具有一定的区分性，然而该方法由于是与任务无关的，在训练数据有限的情况下很难快速泛化到新类别上。基于优化的小样本图像分类算法的目的是得到一个较好的初始化模型或者梯度下降的方向，使得模型面对样本量有限的新类别时仍能具有很好的泛化能力，然而由于数据量有限，这种方法容易困在局部最优点。基于数据扩增的方法提出使用少量的标记样生成假数据，从而实现数据扩增，但是由于生成的数据存在不合理性，容易给网络带来噪声。

此外，上述小样本图像分类方法大都基于浅层的特征提取网络，而骨干网络的层数较深时可以显著降低小样本图像分类算法在数据集上的性能差异。具体的，当特征提取网络的层数较浅时，类内差异性对算法性能的影响较大，但当使用较深的骨干网络时，类内差异性对网络性能的影响明显降低。因此，使用深层的骨干网络来解决小样本图像分类问题是未来的发展趋势。但是深层网络很容易带来过拟合的问题，需要有效地平衡网络的特征表达能力和网络深度所带来的过拟合问题。首先，深层网络通常倾向于从最具鉴别性的对象部分中识别局部区域，而不是从整个对象中进行识别，从而导致特征表示不完整。此外，在小样本图像分类算法中，元学习是一个任务集合上的学习问题，元学习者通常是在所有任务之间共享的。为了在不同任务下实现新类别的正确分类，需要对每个任务学习一个基础学习者。在这种情况下，如何使基础学习者更加专业化，从而对不同的任务以任务相关的方式响应不同的输入，是目前面临的一大挑战。

发明内容

为了克服现有技术的不足，本发明提供一种任务注意力引导的小样本图像互补学习分类算法。设计了一个双分支的多部位互补特征学习模块，融合多个显著部位的判别特征，使网络深度探索和利用特征图的整个空间区域，从而获取更多的判别信息；然后，引入了任务相关的注意力引导模块，通过强化或抑制元学习者提供的部分知识，找出与当前任务相关的代表性特征，通过这种方法使神经网络获得区分当前输入类别的最重要特征的能力。本发明从两个方面克服了深层骨干网络带来过拟合的问题：一方面，利用骨干网络中的GAP层代替VGG网络中的FC层，利用任务相关的注意力引导模块捕获与任务相关的特征表示，极大地减少了网络的参数，避免了小样本场景下的过拟合；另一方面，多部位互补特征学习模块中的“擦除”操作是一种具有显著学习能力的“Dropout”策略，该策略根据给定的阈值生成一个掩模，从而使骨干网络提取特征图的部分神经元失活，最终实现网络的泛化。本发明可以在少量标记样本条件下快速学会一种新的类别，具有较高的分类精度和良好的泛化性。

一种任务注意力引导的小样本图像互补学习分类算法，其特征在于步骤如下：

步骤1，数据预处理：将图像数据集C分为基类C_base和新类C_novel两个子集，C_base中的图像为具有类别标记的训练图像，新类C_novel中每个类别仅有k张标记图像，k的取值范围为[1,20]；对基类C_base中的图像进行预处理操作，得到预处理后的基类图像；从新类C_novel中随机抽取若干组图像模拟小样本条件，每一组图像为一个任务，每一个任务包含n个类别，每个类别包含k张标记图像和m张不带标记的图像，其中，带标记的图像记为支持图像，不带标记的图像记为查询图像，对支持图像和查询图像分别进行预处理操作，得到预处理后的图像；所述的预处理操作为利用均值和标准差进行归一化处理；n的取值范围是[1,5]，k的取值范围为[1,20]，m取值15；

步骤2，构建元学习者网络：元学习者网络由骨干网络f_θ和头部网络f_φ组成，骨干网络f_θ为VGG网络的前w个卷积层，w取值为5；头部网络f_φ包含若干个不同卷积核大小的卷积操作，其中，前p层的卷积核大小为3×3，后q层的卷积核大小为1×1，p取值为2，q取值为1；

利用基类C_base中的所有预处理后的图像对元学习者网络进行训练，得到预训练好的元学习者网络；其中，网络的损失函数采用交叉熵损失函数；

步骤3，构建基础学习者网络：以预训练好的元学习者网络为基础，修改其头部网络f_φ，得到基础学习者网络；其中，修改后的头部网络f_φ主要包括多部位互补特征学习模块和任务相关的注意力模块两个模块；

所述的多部位互补特征学习模块由顺序连接的分支A和分支B组成，具体为：骨干网络f_θ的输出特征F_m输入到分支A，经过两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层，得到具有n通道的特征表示F_ha，F_ha中响应最大的特征维度为目标类别的激活映射，对获取的激活映射进行阈值化操作得到对应物体最显著部位的特征mask_A，阈值化操作的阈值参数为预先定义参数，取值范围为[0.5,0.9]；接着，在F_m上将mask_A所对应的值置零，得到不包括mask_A的特征图F′_m，将F′_m输入到分支B，输出特征F_hb；分支B包括两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层；

所述的任务相关的注意力模块的具体实现过程为：首先，通过全局平均池化操作对骨干网络f_θ的输出特征F_m的每个通道特征进行压缩，得到C个通道的全局表示特征s＝[s₁,s₂,...,s_C]，其中，s_i表示第i个通道特征的平均特征，i＝1,2,…C，C表示特征F_m的通道数；然后，通过两个串联的全连接层对特征s进行变换，得到每个通道的权重u_a＝W₂(W₁(s))，其中，

为第一个全连接层的参数，

为第二个全连接层的参数，r取值32，第一个全连接层后面添加ReLU激活函数，第二个全连接层的输出通道数与类别数n一致，并采用sigmoid函数对每个通道的权重执行u'_a＝σ(u_a)操作，得到归一化的权重u'_a，σ(·)表示sigmoid函数；同时，对多部位互补特征学习模块中得到的特征图F′_m也进行如上处理，得到F′_m对应的每个通道的归一化权重u'_b；最后，将权重u'_a和u'_b分别与多部位互补特征学习模块中得到的特征图F_ha和F_hb相乘得到A分支和B分支的分类特征图F′_ha和F′_hb：

步骤4，训练基础学习者网络：首先，将预处理后的每张支持图像输入基础学习者网络，得到A分支的分类特征图F′_ha和B分支的分类特征图F′_hb；然后，分别将F′_ha和F′_hb输入到GAP层，再经softmax层，输出分别得到A分支的分类特征图F′_ha和B分支的分类特征图F′_hb的n个类别的预测概率，根据两个分支的预测概率计算基础学习者网络的分类损失，并采用梯度下降法对基础学习者网络进行更新，其中，网络整体的分类损失函数Loss为：

Loss＝Loss_A+λLoss_B (3)

Loss_A＝L(f_α(F_m),y_i) (4)

Loss_B＝L(f_β((F_m⊙mask_A),y_i)) (5)

其中，Loss_A表示A分支的分类损失，Loss_B表示B分支的分类损失，λ表示B分支所占的权重大小，取值范围为[0.1,1]；L(·)表示交叉熵损失，f_α(·)和f_β(·)表示特征提取操作，f_α(·)包括A分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块，f_β(·)包括B分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块，⊙表示逐通道相乘，y_i表示第i张输入图像的标签，i＝1,2,…,k；

步骤5，分类效果验证：首先，将预处理后的每张查询图像输入到步骤4训练好的基础学习者网络，得到分类特征图F′_ha和F′_hb；然后将特征F′_ha和F′_hb进行融合，并将融合后的特征F_h输入到GAP层，再经softmax层，得到查询图像的n个类别的预测概率，以预测概率最大值对应的类别作为其分类结果；所述的融合指的是将特征F′_ha和F′_hb中每个位置的值作对比，取每个位置的最大值作为融合后特征F_h在该位置处的值。

本发明的有益效果是：由于保留了元学习者网络在基类中学习到的先验知识，使得基础学习者能够利用先验知识获得快速学习的能力；在基础学习者网络中，由于采用多部位互补特征学习模块的处理技术，利用双分支网络提取目标互补部位的判别特征，能够使网络获得更高的分类效果；在基础学习者网络中，由于采用了任务相关的注意力模块，可以使网络具有区分当前输入类别的最重要特征的能力；通过将多部位互补特征学习模块和任务相关的注意力模块相结合，可以深入挖掘与当前输入类别最相关的互补特征，提高网络的鉴别能力。本发明可以在少量训练样本的条件下实现较高的分类精度，具有较高的分类准确度和较好的鲁棒性。

附图说明

图1是本发明的任务注意力引导的小样本图像互补学习分类算法基本流程图；

图2是本发明元学习者网络的基本框架图；

图3是本发明基础学习者网络在训练阶段的基础框架图；

图4是本发明基础学习者网络在验证阶段的基础框架图；

图5是本发明实施例所使用的数据库图像示例；

图6是采用本发明方法进行分类处理的可视化结果图像。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本实施例用于实施的硬件环境是：Intel(R)Core(TM)i3-8100 CPU计算机、8.0GB内存，运行的软件环境是：Ubuntu16.04.5LTS和Pycharm2017。使用公开数据库miniImageNet和CUB-200。miniImageNet由100个类组成，每个类包含600张样本，共60000张，每张图的大小为84×84，将100个不同的类别分为64个基类、16个验证类和20个新类；CUB-200包括200种鸟类，共11788幅图像，从200个类别随机抽取100、50、50个类别组成基类、验证类和新类，本实施例中对上述两个数据集中的验证类不做任何处理和使用。为了显示数据的可靠性，在5-way 1-shot和5-way 5-shot设置下分别从新类中随机抽取500个任务用于验证模型的效果。在5-way 1-shot设置下，每个任务包括5个类别，每个类别挑选1张支持图像和15张查询图像。在5-way 5-shot设置下，每个任务包括5个类别，每个类别挑选5张支持图像和15张查询图像。

如图1所示，本发明的具体实施过程如下：

1、数据预处理

将图像数据集C分为基类C_base和新类C_novel两个子集，C_base中的图像为具有类别标记的训练图像，新类C_novel中每个类别仅有k张标记图像，k的取值范围为[1,20]；对基类C_base中的图像进行预处理操作，得到预处理后的基类图像；从新类C_novel中随机抽取若干组图像模拟小样本条件，每一组图像为一个任务，每一个任务包含n个类别，每个类别包含k张标记图像和15张不带标记的图像，其中，带标记的图像记为支持图像，不带标记的图像记为查询图像，对支持图像和查询图像分别进行预处理操作，得到预处理后的图像。n的取值范围是[1,5]，k的取值范围为[1,20]。本实施例中n＝5，两个任务中k分别为1和5。

所述的预处理操作是利用均值和标准差进行归一化处理，具体为：

对每张图像I的三个RGB通道分别按照下式进行归一化处理：

其中，I_c表示图像的第c通道，I′_c表示归一化后的第c通道，Mean_c代表第c通道的均值，Std_c代表第c通道的标准差。

2、构建元学习者网络

如图2所示，元学习者网络由骨干网络f_θ和头部网络f_φ组成，骨干网络f_θ为VGG网络的前w个卷积层，w取值为5；头部网络f_φ包含若干个不同卷积核大小的卷积操作，其中，前两层的卷积核大小为3×3，后一层的卷积核大小为1×1。

利用基类C_base中的所有预处理后的图像对元学习者网络进行训练，得到预训练好的元学习者网络；其中，网络的损失函数采用交叉熵损失函数。

3、构建基础学习者网络

以预训练好的元学习者网络为基础，将步骤2得到的骨干网络f_θ在C_base数据上获取的参数固定，修改其头部网络f_φ，得到基础学习者网络；其中，修改后的头部网络f_φ主要包括多部位互补特征学习模块和任务相关的注意力模块两个模块。

所述的多部位互补特征学习模块由顺序连接的分支A和分支B组成，具体为：骨干网络f_θ的输出特征F_m∈R^C×W×H输入到分支A，C为特征F_m的通道数，W为特征图的宽，H为特征图的高，本实施例中C＝512，F_m经过两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层，得到具有5通道的特征表示F_ha，F_ha中响应最大的特征维度为目标类别的激活映射，其中，在图3和图4的中，将两层卷积核大小为3×3的卷积层标示为“新层”。对获取的激活映射进行阈值化操作得到对应物体最显著部位的特征mask_A，阈值化操作的阈值参数τ为预先定义参数，取值范围为[0.5,0.9]，本实施例中，当数据集为miniImageNet时，τ＝0.4；当数据集为CUB时，τ＝0.5；接着，在F_m上将mask_A所对应的值置零，得到不包括mask_A的特征图F′_m，将F′_m输入到分支B，输出特征F_hb。分支B包括两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层。

所述的任务相关的注意力模块的具体实现过程为：首先，通过全局平均池化操作对骨干网络f_θ的输出特征F_m的每个通道特征进行压缩，得到C个通道的全局表示特征s＝[s₁,s₂,...,s₅₁₂]，其中，s_i表示第i个通道特征的平均特征，i＝1,2,…C，C表示特征F_m的通道数，本实施例中C＝512；然后，通过两个串联的全连接层对特征s进行变换，得到每个通道的权重u_a＝W₂(W₁(s))，其中，

为第一个全连接层的参数，

为第二个全连接层的参数，r取值32，本实施例中

第一个全连接层后面添加ReLU激活函数，第二个全连接层的输出通道数与类别数n一致，本实施例中n取5，并采用sigmoid函数对每个通道的权重执行u'_a＝σ(u_a)操作，得到归一化的权重u'_a，σ(·)表示sigmoid函数；同时，对多部位互补特征学习模块中得到的特征图F′_m也进行如上处理，得到F′_m对应的每个通道的归一化权重u'_b；最后，将权重u'_a和u'_b分别与多部位互补特征学习模块中得到的特征图F_ha和F_hb相乘得到A分支和B分支的分类特征图F′_ha和F′_hb：

4、训练基础学习者网络模型

基础学习者网络模型的训练过程如图3所示，首先，将预处理后的每张支持图像输入基础学习者网络，得到A分支的分类特征图F′_ha和B分支的分类特征图F′_hb；然后，分别将F′_ha和F′_hb输入到GAP层，再经softmax层，输出分别得到A分支的分类特征图F′_ha和B分支的分类特征图F′_hb的n个类别的预测概率，n取5，根据两个分支的预测概率计算基础学习者网络的分类损失，并采用梯度下降法对基础学习者网络进行更新，其中，网络整体的分类损失函数Loss为：

Loss＝Loss_A+λLoss_B (9)

Loss_A＝L(f_α(F_m),y_i) (10)

Loss_B＝L(f_β((F_m⊙mask_A),y_i)) (11)

其中，Loss_A表示A分支的分类损失，Loss_B表示B分支的分类损失，λ表示B分支所占的权重大小，取值范围为[0.1,1]，本实施例中，对于miniImageNet数据集，λ＝0.5，对于CUB-200，λ＝0.1；L(·)表示交叉熵损失，f_α(·)和f_β(·)表示特征提取操作，f_α(·)包括A分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块，f_β(·)包括B分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块，⊙表示逐通道相乘，y_i表示第i张输入图像的标签，i＝1,2,…,k。

5、分类效果验证

基础学习者网络的验证过程如图4所示，首先，将预处理后的每张查询图像输入到步骤4训练好的基础学习者网络，得到分类特征图F′_ha和F′_hb；然后将特征F′_ha和F′_hb进行融合，并将融合后的特征F_h输入到GAP层，再经softmax层，得到查询图像的n个类别的预测概率，n取5，以预测概率最大值对应的类别作为其分类结果。所述的融合指的是将特征F′_ha和F′_hb中每个位置的值作对比，取每个位置的最大值作为融合后特征F_h在该位置处的值。

选用分类准确率accuracy对本发明方法的有效性进行评估。accuracy是指分类正确的样本数占总样本数的百分比，通常accuracy的值越大，算法的效果越好。accuracy的计算方式如下：

其中，TP、TN、FP和FN之间的关系如表1所示。

表1

在miniimagenet数据集上将采用本发明方法所得的分类结果与baseline方法进行了对比，对比结果如表2所示，分类准确率表明了本发明方法的有效性。与本发明方法相比，baseline模型不包含多部位互补特征学习模块和任务相关的注意力引导模块。具体的，Baseline模型由VGG16的前5个卷积块组成，后接三层卷积层，其中前两层卷积的卷积核个数为512个，卷积核的大小为3×3，步长为1，后一层卷积的卷积核的个数为5，卷积核的大小为1×1，步长为1。

表2

Model	1-shot	5-shot
			Baseline	56.75±0.89％	77.22±0.66％
Ours	59.31％±0.99％	79.21％±0.64％

在CUB数据集上将本发明方法所得的分类结果与baseline方法进行了对比，对比结果如表3所示，分类准确率表明了本发明方法的有效性。图5为CUB数据集的部分图像示例，图6在CUB数据集上的可视化结果证明了本发明方法所展现出的优异的分类效果。

表3

Model	1-shot	5-shot
			Baseline	74.81％±0.88％	92.61％±0.35％
Ours	77.30％±0.86％	94.20％±0.34％

Claims

1.一种任务注意力引导的小样本图像互补学习分类算法，其特征在于步骤如下：

为第一个全连接层的参数，

为第二个全连接层的参数，r取值32，第一个全连接层后面添加ReLU激活函数，第二个全连接层的输出通道数与类别数n一致，并采用sigmoid函数对每个通道的权重执行u′_a＝σ(u_a)操作，得到归一化的权重u′_a，σ(·)表示sigmoid函数；同时，对多部位互补特征学习模块中得到的特征图F′_m也进行如上处理，得到F′_m对应的每个通道的归一化权重u′_b；最后，将权重u′_a和u′_b分别与多部位互补特征学习模块中得到的特征图F_ha和F_hb相乘得到A分支和B分支的分类特征图F′_ha和F′_hb：

Loss＝Loss_A+λLoss_B (3)

Loss_A＝L(f_α(F_m),y_i) (4)

Loss_B＝L(f_β((F_m⊙mask_A),y_i)) (5)