CN112784921A - 任务注意力引导的小样本图像互补学习分类算法 - Google Patents
任务注意力引导的小样本图像互补学习分类算法 Download PDFInfo
- Publication number
- CN112784921A CN112784921A CN202110150081.3A CN202110150081A CN112784921A CN 112784921 A CN112784921 A CN 112784921A CN 202110150081 A CN202110150081 A CN 202110150081A CN 112784921 A CN112784921 A CN 112784921A
- Authority
- CN
- China
- Prior art keywords
- network
- branch
- feature
- images
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 30
- 238000007635 classification algorithm Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000005728 strengthening Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种任务注意力引导的小样本图像互补学习分类算法。首先,设计了一个双分支的多部位互补特征学习模块,融合多个显著部位的判别特征,使网络深度探索和利用特征图的整个空间区域,从而获取更多的判别信息;然后,引入了任务相关的注意力引导模块,通过强化或抑制元学习者提供的部分知识,找出与当前任务相关的代表性特征,通过这种方法使神经网络获得区分当前输入类别的最重要特征的能力。通过将多部位互补特征学习模块和任务相关的注意力模块相结合,可以深入挖掘与当前输入类别最相关的互补特征,提高网络的鉴别能力,在少量训练样本的条件下实现较高的分类精度,具有较高的分类准确度和较好的鲁棒性。
Description
技术领域
本发明属图像处理技术领域,具体涉及一种任务注意力引导的小样本图像互补学习分类算法,可以实现小样本条件下新类别图像的快速分类。
背景技术
近年来深度学习在许多数据密集型的应用中取得了显著的效果,如目标检测、图像分类和语义分割等。然而深度学习技术的性能严重依赖于标注数据量的大小,并且缺乏在低数据状态下的学习能力和泛化能力。在现实生活中,标注数据的大量搜集存在一定的困难,极大的限制了深度学习的进一步发展。一方面,在某些特定的领域,如军事领域,由于种种限制很难获取大量的样本。另一方面,海量数据的标注需要大量的人力和物力。特别在某些专业领域,数据的标注工作需要行业内的专家进行,给大量数据的标注工作带来了极大的困难。小样本学习利用先验知识,在面对仅有少量标注数据的新类别时具有较高的分类准确率。
目前已有的小样本图像分类方法,概括起来可以分为基于模型的小样本图像分类算法、基于度量的小样本图像分类算法、基于优化的小样本图像分类算法和基于数据扩增的小样本图像分类算法四大类。基于模型的方法旨在通过设计模型结构快速更新少量样本的参数,并直接建立输入与预测之间的映射函数,然而传统的梯度下降的算法参数量较多,无法快速实现优化。基于度量的方法主要学习图像到嵌入空间的映射,并且使该空间具有一定的区分性,然而该方法由于是与任务无关的,在训练数据有限的情况下很难快速泛化到新类别上。基于优化的小样本图像分类算法的目的是得到一个较好的初始化模型或者梯度下降的方向,使得模型面对样本量有限的新类别时仍能具有很好的泛化能力,然而由于数据量有限,这种方法容易困在局部最优点。基于数据扩增的方法提出使用少量的标记样生成假数据,从而实现数据扩增,但是由于生成的数据存在不合理性,容易给网络带来噪声。
此外,上述小样本图像分类方法大都基于浅层的特征提取网络,而骨干网络的层数较深时可以显著降低小样本图像分类算法在数据集上的性能差异。具体的,当特征提取网络的层数较浅时,类内差异性对算法性能的影响较大,但当使用较深的骨干网络时,类内差异性对网络性能的影响明显降低。因此,使用深层的骨干网络来解决小样本图像分类问题是未来的发展趋势。但是深层网络很容易带来过拟合的问题,需要有效地平衡网络的特征表达能力和网络深度所带来的过拟合问题。首先,深层网络通常倾向于从最具鉴别性的对象部分中识别局部区域,而不是从整个对象中进行识别,从而导致特征表示不完整。此外,在小样本图像分类算法中,元学习是一个任务集合上的学习问题,元学习者通常是在所有任务之间共享的。为了在不同任务下实现新类别的正确分类,需要对每个任务学习一个基础学习者。在这种情况下,如何使基础学习者更加专业化,从而对不同的任务以任务相关的方式响应不同的输入,是目前面临的一大挑战。
发明内容
为了克服现有技术的不足,本发明提供一种任务注意力引导的小样本图像互补学习分类算法。设计了一个双分支的多部位互补特征学习模块,融合多个显著部位的判别特征,使网络深度探索和利用特征图的整个空间区域,从而获取更多的判别信息;然后,引入了任务相关的注意力引导模块,通过强化或抑制元学习者提供的部分知识,找出与当前任务相关的代表性特征,通过这种方法使神经网络获得区分当前输入类别的最重要特征的能力。本发明从两个方面克服了深层骨干网络带来过拟合的问题:一方面,利用骨干网络中的GAP层代替VGG网络中的FC层,利用任务相关的注意力引导模块捕获与任务相关的特征表示,极大地减少了网络的参数,避免了小样本场景下的过拟合;另一方面,多部位互补特征学习模块中的“擦除”操作是一种具有显著学习能力的“Dropout”策略,该策略根据给定的阈值生成一个掩模,从而使骨干网络提取特征图的部分神经元失活,最终实现网络的泛化。本发明可以在少量标记样本条件下快速学会一种新的类别,具有较高的分类精度和良好的泛化性。
一种任务注意力引导的小样本图像互补学习分类算法,其特征在于步骤如下:
步骤1,数据预处理:将图像数据集C分为基类Cbase和新类Cnovel两个子集,Cbase中的图像为具有类别标记的训练图像,新类Cnovel中每个类别仅有k张标记图像,k的取值范围为[1,20];对基类Cbase中的图像进行预处理操作,得到预处理后的基类图像;从新类Cnovel中随机抽取若干组图像模拟小样本条件,每一组图像为一个任务,每一个任务包含n个类别,每个类别包含k张标记图像和m张不带标记的图像,其中,带标记的图像记为支持图像,不带标记的图像记为查询图像,对支持图像和查询图像分别进行预处理操作,得到预处理后的图像;所述的预处理操作为利用均值和标准差进行归一化处理;n的取值范围是[1,5],k的取值范围为[1,20],m取值15;
步骤2,构建元学习者网络:元学习者网络由骨干网络fθ和头部网络fφ组成,骨干网络fθ为VGG网络的前w个卷积层,w取值为5;头部网络fφ包含若干个不同卷积核大小的卷积操作,其中,前p层的卷积核大小为3×3,后q层的卷积核大小为1×1,p取值为2,q取值为1;
利用基类Cbase中的所有预处理后的图像对元学习者网络进行训练,得到预训练好的元学习者网络;其中,网络的损失函数采用交叉熵损失函数;
步骤3,构建基础学习者网络:以预训练好的元学习者网络为基础,修改其头部网络fφ,得到基础学习者网络;其中,修改后的头部网络fφ主要包括多部位互补特征学习模块和任务相关的注意力模块两个模块;
所述的多部位互补特征学习模块由顺序连接的分支A和分支B组成,具体为:骨干网络fθ的输出特征Fm输入到分支A,经过两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层,得到具有n通道的特征表示Fha,Fha中响应最大的特征维度为目标类别的激活映射,对获取的激活映射进行阈值化操作得到对应物体最显著部位的特征maskA,阈值化操作的阈值参数为预先定义参数,取值范围为[0.5,0.9];接着,在Fm上将maskA所对应的值置零,得到不包括maskA的特征图F′m,将F′m输入到分支B,输出特征Fhb;分支B包括两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层;
所述的任务相关的注意力模块的具体实现过程为:首先,通过全局平均池化操作对骨干网络fθ的输出特征Fm的每个通道特征进行压缩,得到C个通道的全局表示特征s=[s1,s2,...,sC],其中,si表示第i个通道特征的平均特征,i=1,2,…C,C表示特征Fm的通道数;然后,通过两个串联的全连接层对特征s进行变换,得到每个通道的权重ua=W2(W1(s)),其中,为第一个全连接层的参数,为第二个全连接层的参数,r取值32,第一个全连接层后面添加ReLU激活函数,第二个全连接层的输出通道数与类别数n一致,并采用sigmoid函数对每个通道的权重执行u'a=σ(ua)操作,得到归一化的权重u'a,σ(·)表示sigmoid函数;同时,对多部位互补特征学习模块中得到的特征图F′m也进行如上处理,得到F′m对应的每个通道的归一化权重u'b;最后,将权重u'a和u'b分别与多部位互补特征学习模块中得到的特征图Fha和Fhb相乘得到A分支和B分支的分类特征图F′ha和F′hb:
步骤4,训练基础学习者网络:首先,将预处理后的每张支持图像输入基础学习者网络,得到A分支的分类特征图F′ha和B分支的分类特征图F′hb;然后,分别将F′ha和F′hb输入到GAP层,再经softmax层,输出分别得到A分支的分类特征图F′ha和B分支的分类特征图F′hb的n个类别的预测概率,根据两个分支的预测概率计算基础学习者网络的分类损失,并采用梯度下降法对基础学习者网络进行更新,其中,网络整体的分类损失函数Loss为:
Loss=LossA+λLossB (3)
LossA=L(fα(Fm),yi) (4)
LossB=L(fβ((Fm⊙maskA),yi)) (5)
其中,LossA表示A分支的分类损失,LossB表示B分支的分类损失,λ表示B分支所占的权重大小,取值范围为[0.1,1];L(·)表示交叉熵损失,fα(·)和fβ(·)表示特征提取操作,fα(·)包括A分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,fβ(·)包括B分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,⊙表示逐通道相乘,yi表示第i张输入图像的标签,i=1,2,…,k;
步骤5,分类效果验证:首先,将预处理后的每张查询图像输入到步骤4训练好的基础学习者网络,得到分类特征图F′ha和F′hb;然后将特征F′ha和F′hb进行融合,并将融合后的特征Fh输入到GAP层,再经softmax层,得到查询图像的n个类别的预测概率,以预测概率最大值对应的类别作为其分类结果;所述的融合指的是将特征F′ha和F′hb中每个位置的值作对比,取每个位置的最大值作为融合后特征Fh在该位置处的值。
本发明的有益效果是:由于保留了元学习者网络在基类中学习到的先验知识,使得基础学习者能够利用先验知识获得快速学习的能力;在基础学习者网络中,由于采用多部位互补特征学习模块的处理技术,利用双分支网络提取目标互补部位的判别特征,能够使网络获得更高的分类效果;在基础学习者网络中,由于采用了任务相关的注意力模块,可以使网络具有区分当前输入类别的最重要特征的能力;通过将多部位互补特征学习模块和任务相关的注意力模块相结合,可以深入挖掘与当前输入类别最相关的互补特征,提高网络的鉴别能力。本发明可以在少量训练样本的条件下实现较高的分类精度,具有较高的分类准确度和较好的鲁棒性。
附图说明
图1是本发明的任务注意力引导的小样本图像互补学习分类算法基本流程图;
图2是本发明元学习者网络的基本框架图;
图3是本发明基础学习者网络在训练阶段的基础框架图;
图4是本发明基础学习者网络在验证阶段的基础框架图;
图5是本发明实施例所使用的数据库图像示例;
图6是采用本发明方法进行分类处理的可视化结果图像。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本实施例用于实施的硬件环境是:Intel(R)Core(TM)i3-8100 CPU计算机、8.0GB内存,运行的软件环境是:Ubuntu16.04.5LTS和Pycharm2017。使用公开数据库miniImageNet和CUB-200。miniImageNet由100个类组成,每个类包含600张样本,共60000张,每张图的大小为84×84,将100个不同的类别分为64个基类、16个验证类和20个新类;CUB-200包括200种鸟类,共11788幅图像,从200个类别随机抽取100、50、50个类别组成基类、验证类和新类,本实施例中对上述两个数据集中的验证类不做任何处理和使用。为了显示数据的可靠性,在5-way 1-shot和5-way 5-shot设置下分别从新类中随机抽取500个任务用于验证模型的效果。在5-way 1-shot设置下,每个任务包括5个类别,每个类别挑选1张支持图像和15张查询图像。在5-way 5-shot设置下,每个任务包括5个类别,每个类别挑选5张支持图像和15张查询图像。
如图1所示,本发明的具体实施过程如下:
1、数据预处理
将图像数据集C分为基类Cbase和新类Cnovel两个子集,Cbase中的图像为具有类别标记的训练图像,新类Cnovel中每个类别仅有k张标记图像,k的取值范围为[1,20];对基类Cbase中的图像进行预处理操作,得到预处理后的基类图像;从新类Cnovel中随机抽取若干组图像模拟小样本条件,每一组图像为一个任务,每一个任务包含n个类别,每个类别包含k张标记图像和15张不带标记的图像,其中,带标记的图像记为支持图像,不带标记的图像记为查询图像,对支持图像和查询图像分别进行预处理操作,得到预处理后的图像。n的取值范围是[1,5],k的取值范围为[1,20]。本实施例中n=5,两个任务中k分别为1和5。
所述的预处理操作是利用均值和标准差进行归一化处理,具体为:
对每张图像I的三个RGB通道分别按照下式进行归一化处理:
其中,Ic表示图像的第c通道,I′c表示归一化后的第c通道,Meanc代表第c通道的均值,Stdc代表第c通道的标准差。
2、构建元学习者网络
如图2所示,元学习者网络由骨干网络fθ和头部网络fφ组成,骨干网络fθ为VGG网络的前w个卷积层,w取值为5;头部网络fφ包含若干个不同卷积核大小的卷积操作,其中,前两层的卷积核大小为3×3,后一层的卷积核大小为1×1。
利用基类Cbase中的所有预处理后的图像对元学习者网络进行训练,得到预训练好的元学习者网络;其中,网络的损失函数采用交叉熵损失函数。
3、构建基础学习者网络
以预训练好的元学习者网络为基础,将步骤2得到的骨干网络fθ在Cbase数据上获取的参数固定,修改其头部网络fφ,得到基础学习者网络;其中,修改后的头部网络fφ主要包括多部位互补特征学习模块和任务相关的注意力模块两个模块。
所述的多部位互补特征学习模块由顺序连接的分支A和分支B组成,具体为:骨干网络fθ的输出特征Fm∈RC×W×H输入到分支A,C为特征Fm的通道数,W为特征图的宽,H为特征图的高,本实施例中C=512,Fm经过两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层,得到具有5通道的特征表示Fha,Fha中响应最大的特征维度为目标类别的激活映射,其中,在图3和图4的中,将两层卷积核大小为3×3的卷积层标示为“新层”。对获取的激活映射进行阈值化操作得到对应物体最显著部位的特征maskA,阈值化操作的阈值参数τ为预先定义参数,取值范围为[0.5,0.9],本实施例中,当数据集为miniImageNet时,τ=0.4;当数据集为CUB时,τ=0.5;接着,在Fm上将maskA所对应的值置零,得到不包括maskA的特征图F′m,将F′m输入到分支B,输出特征Fhb。分支B包括两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层。
所述的任务相关的注意力模块的具体实现过程为:首先,通过全局平均池化操作对骨干网络fθ的输出特征Fm的每个通道特征进行压缩,得到C个通道的全局表示特征s=[s1,s2,...,s512],其中,si表示第i个通道特征的平均特征,i=1,2,…C,C表示特征Fm的通道数,本实施例中C=512;然后,通过两个串联的全连接层对特征s进行变换,得到每个通道的权重ua=W2(W1(s)),其中,为第一个全连接层的参数,为第二个全连接层的参数,r取值32,本实施例中第一个全连接层后面添加ReLU激活函数,第二个全连接层的输出通道数与类别数n一致,本实施例中n取5,并采用sigmoid函数对每个通道的权重执行u'a=σ(ua)操作,得到归一化的权重u'a,σ(·)表示sigmoid函数;同时,对多部位互补特征学习模块中得到的特征图F′m也进行如上处理,得到F′m对应的每个通道的归一化权重u'b;最后,将权重u'a和u'b分别与多部位互补特征学习模块中得到的特征图Fha和Fhb相乘得到A分支和B分支的分类特征图F′ha和F′hb:
4、训练基础学习者网络模型
基础学习者网络模型的训练过程如图3所示,首先,将预处理后的每张支持图像输入基础学习者网络,得到A分支的分类特征图F′ha和B分支的分类特征图F′hb;然后,分别将F′ha和F′hb输入到GAP层,再经softmax层,输出分别得到A分支的分类特征图F′ha和B分支的分类特征图F′hb的n个类别的预测概率,n取5,根据两个分支的预测概率计算基础学习者网络的分类损失,并采用梯度下降法对基础学习者网络进行更新,其中,网络整体的分类损失函数Loss为:
Loss=LossA+λLossB (9)
LossA=L(fα(Fm),yi) (10)
LossB=L(fβ((Fm⊙maskA),yi)) (11)
其中,LossA表示A分支的分类损失,LossB表示B分支的分类损失,λ表示B分支所占的权重大小,取值范围为[0.1,1],本实施例中,对于miniImageNet数据集,λ=0.5,对于CUB-200,λ=0.1;L(·)表示交叉熵损失,fα(·)和fβ(·)表示特征提取操作,fα(·)包括A分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,fβ(·)包括B分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,⊙表示逐通道相乘,yi表示第i张输入图像的标签,i=1,2,…,k。
5、分类效果验证
基础学习者网络的验证过程如图4所示,首先,将预处理后的每张查询图像输入到步骤4训练好的基础学习者网络,得到分类特征图F′ha和F′hb;然后将特征F′ha和F′hb进行融合,并将融合后的特征Fh输入到GAP层,再经softmax层,得到查询图像的n个类别的预测概率,n取5,以预测概率最大值对应的类别作为其分类结果。所述的融合指的是将特征F′ha和F′hb中每个位置的值作对比,取每个位置的最大值作为融合后特征Fh在该位置处的值。
选用分类准确率accuracy对本发明方法的有效性进行评估。accuracy是指分类正确的样本数占总样本数的百分比,通常accuracy的值越大,算法的效果越好。accuracy的计算方式如下:
其中,TP、TN、FP和FN之间的关系如表1所示。
表1
在miniimagenet数据集上将采用本发明方法所得的分类结果与baseline方法进行了对比,对比结果如表2所示,分类准确率表明了本发明方法的有效性。与本发明方法相比,baseline模型不包含多部位互补特征学习模块和任务相关的注意力引导模块。具体的,Baseline模型由VGG16的前5个卷积块组成,后接三层卷积层,其中前两层卷积的卷积核个数为512个,卷积核的大小为3×3,步长为1,后一层卷积的卷积核的个数为5,卷积核的大小为1×1,步长为1。
表2
Model | 1-shot | 5-shot |
Baseline | 56.75±0.89% | 77.22±0.66% |
Ours | 59.31%±0.99% | 79.21%±0.64% |
在CUB数据集上将本发明方法所得的分类结果与baseline方法进行了对比,对比结果如表3所示,分类准确率表明了本发明方法的有效性。图5为CUB数据集的部分图像示例,图6在CUB数据集上的可视化结果证明了本发明方法所展现出的优异的分类效果。
表3
Model | 1-shot | 5-shot |
Baseline | 74.81%±0.88% | 92.61%±0.35% |
Ours | 77.30%±0.86% | 94.20%±0.34% |
Claims (1)
1.一种任务注意力引导的小样本图像互补学习分类算法,其特征在于步骤如下:
步骤1,数据预处理:将图像数据集C分为基类Cbase和新类Cnovel两个子集,Cbase中的图像为具有类别标记的训练图像,新类Cnovel中每个类别仅有k张标记图像,k的取值范围为[1,20];对基类Cbase中的图像进行预处理操作,得到预处理后的基类图像;从新类Cnovel中随机抽取若干组图像模拟小样本条件,每一组图像为一个任务,每一个任务包含n个类别,每个类别包含k张标记图像和m张不带标记的图像,其中,带标记的图像记为支持图像,不带标记的图像记为查询图像,对支持图像和查询图像分别进行预处理操作,得到预处理后的图像;所述的预处理操作为利用均值和标准差进行归一化处理;n的取值范围是[1,5],k的取值范围为[1,20],m取值15;
步骤2,构建元学习者网络:元学习者网络由骨干网络fθ和头部网络fφ组成,骨干网络fθ为VGG网络的前w个卷积层,w取值为5;头部网络fφ包含若干个不同卷积核大小的卷积操作,其中,前p层的卷积核大小为3×3,后q层的卷积核大小为1×1,p取值为2,q取值为1;
利用基类Cbase中的所有预处理后的图像对元学习者网络进行训练,得到预训练好的元学习者网络;其中,网络的损失函数采用交叉熵损失函数;
步骤3,构建基础学习者网络:以预训练好的元学习者网络为基础,修改其头部网络fφ,得到基础学习者网络;其中,修改后的头部网络fφ主要包括多部位互补特征学习模块和任务相关的注意力模块两个模块;
所述的多部位互补特征学习模块由顺序连接的分支A和分支B组成,具体为:骨干网络fθ的输出特征Fm输入到分支A,经过两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层,得到具有n通道的特征表示Fha,Fha中响应最大的特征维度为目标类别的激活映射,对获取的激活映射进行阈值化操作得到对应物体最显著部位的特征maskA,阈值化操作的阈值参数为预先定义参数,取值范围为[0.5,0.9];接着,在Fm上将maskA所对应的值置零,得到不包括maskA的特征图F′m,将F′m输入到分支B,输出特征Fhb;分支B包括两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层;
所述的任务相关的注意力模块的具体实现过程为:首先,通过全局平均池化操作对骨干网络fθ的输出特征Fm的每个通道特征进行压缩,得到C个通道的全局表示特征s=[s1,s2,...,sC],其中,si表示第i个通道特征的平均特征,i=1,2,…C,C表示特征Fm的通道数;然后,通过两个串联的全连接层对特征s进行变换,得到每个通道的权重ua=W2(W1(s)),其中,为第一个全连接层的参数,为第二个全连接层的参数,r取值32,第一个全连接层后面添加ReLU激活函数,第二个全连接层的输出通道数与类别数n一致,并采用sigmoid函数对每个通道的权重执行u′a=σ(ua)操作,得到归一化的权重u′a,σ(·)表示sigmoid函数;同时,对多部位互补特征学习模块中得到的特征图F′m也进行如上处理,得到F′m对应的每个通道的归一化权重u′b;最后,将权重u′a和u′b分别与多部位互补特征学习模块中得到的特征图Fha和Fhb相乘得到A分支和B分支的分类特征图F′ha和F′hb:
步骤4,训练基础学习者网络:首先,将预处理后的每张支持图像输入基础学习者网络,得到A分支的分类特征图F′ha和B分支的分类特征图F′hb;然后,分别将F′ha和F′hb输入到GAP层,再经softmax层,输出分别得到A分支的分类特征图F′ha和B分支的分类特征图F′hb的n个类别的预测概率,根据两个分支的预测概率计算基础学习者网络的分类损失,并采用梯度下降法对基础学习者网络进行更新,其中,网络整体的分类损失函数Loss为:
Loss=LossA+λLossB (3)
LossA=L(fα(Fm),yi) (4)
LossB=L(fβ((Fm⊙maskA),yi)) (5)
其中,LossA表示A分支的分类损失,LossB表示B分支的分类损失,λ表示B分支所占的权重大小,取值范围为[0.1,1];L(·)表示交叉熵损失,fα(·)和fβ(·)表示特征提取操作,fα(·)包括A分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,fβ(·)包括B分支的两层卷积核大小为3×3的卷积层和一层卷积核大小为1×1的卷积层及步骤3中的任务相关的注意力模块,⊙表示逐通道相乘,yi表示第i张输入图像的标签,i=1,2,…,k;
步骤5,分类效果验证:首先,将预处理后的每张查询图像输入到步骤4训练好的基础学习者网络,得到分类特征图F′ha和F′hb;然后将特征F′ha和F′hb进行融合,并将融合后的特征Fh输入到GAP层,再经softmax层,得到查询图像的n个类别的预测概率,以预测概率最大值对应的类别作为其分类结果;所述的融合指的是将特征F′ha和F′hb中每个位置的值作对比,取每个位置的最大值作为融合后特征Fh在该位置处的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150081.3A CN112784921A (zh) | 2021-02-02 | 2021-02-02 | 任务注意力引导的小样本图像互补学习分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150081.3A CN112784921A (zh) | 2021-02-02 | 2021-02-02 | 任务注意力引导的小样本图像互补学习分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112784921A true CN112784921A (zh) | 2021-05-11 |
Family
ID=75760722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110150081.3A Pending CN112784921A (zh) | 2021-02-02 | 2021-02-02 | 任务注意力引导的小样本图像互补学习分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784921A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505861A (zh) * | 2021-09-07 | 2021-10-15 | 广东众聚人工智能科技有限公司 | 基于元学习和记忆网络的图像分类方法及*** |
CN114580571A (zh) * | 2022-04-01 | 2022-06-03 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114926702A (zh) * | 2022-04-16 | 2022-08-19 | 西北工业大学深圳研究院 | 一种基于深度注意力度量的小样本图像分类方法 |
CN114937199A (zh) * | 2022-07-22 | 2022-08-23 | 山东省凯麟环保设备股份有限公司 | 一种基于判别性特征增强的垃圾分类方法与*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111476292A (zh) * | 2020-04-03 | 2020-07-31 | 北京全景德康医学影像诊断中心有限公司 | 医学图像分类处理人工智能的小样本元学习训练方法 |
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和*** |
-
2021
- 2021-02-02 CN CN202110150081.3A patent/CN112784921A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111476292A (zh) * | 2020-04-03 | 2020-07-31 | 北京全景德康医学影像诊断中心有限公司 | 医学图像分类处理人工智能的小样本元学习训练方法 |
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和*** |
Non-Patent Citations (2)
Title |
---|
GONG CHENG.ETC: ""Task-wise attention guided part complementary learning for few-shot image classification"", 《SCIENCE CHINA》, 20 January 2021 (2021-01-20) * |
张先武;郭雷;: "一种新的支持向量机决策树设计算法", 火力与指挥控制, no. 10, 15 October 2010 (2010-10-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505861A (zh) * | 2021-09-07 | 2021-10-15 | 广东众聚人工智能科技有限公司 | 基于元学习和记忆网络的图像分类方法及*** |
CN114580571A (zh) * | 2022-04-01 | 2022-06-03 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114580571B (zh) * | 2022-04-01 | 2023-05-23 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114926702A (zh) * | 2022-04-16 | 2022-08-19 | 西北工业大学深圳研究院 | 一种基于深度注意力度量的小样本图像分类方法 |
CN114926702B (zh) * | 2022-04-16 | 2024-03-19 | 西北工业大学深圳研究院 | 一种基于深度注意力度量的小样本图像分类方法 |
CN114937199A (zh) * | 2022-07-22 | 2022-08-23 | 山东省凯麟环保设备股份有限公司 | 一种基于判别性特征增强的垃圾分类方法与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN110413924B (zh) | 一种半监督多视图学习的网页分类方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
Badawi et al. | A hybrid memetic algorithm (genetic algorithm and great deluge local search) with back-propagation classifier for fish recognition | |
CN114038037B (zh) | 基于可分离残差注意力网络的表情标签修正和识别方法 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN115410026A (zh) | 基于标签传播对比半监督学习的图像分类方法与*** | |
CN113688894B (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN112381248A (zh) | 一种基于深度特征聚类和lstm的配电网故障诊断方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及*** | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
Vora et al. | Iterative spectral clustering for unsupervised object localization | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN114417975A (zh) | 基于深度pu学习与类别先验估计的数据分类方法及*** | |
CN111310838A (zh) | 一种基于深度Gabor网络的药效图像分类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |