CN111985538A - 基于语义辅助注意力机制的小样本图片分类模型及方法 - Google Patents

基于语义辅助注意力机制的小样本图片分类模型及方法 Download PDF

Info

Publication number
CN111985538A
CN111985538A CN202010732273.0A CN202010732273A CN111985538A CN 111985538 A CN111985538 A CN 111985538A CN 202010732273 A CN202010732273 A CN 202010732273A CN 111985538 A CN111985538 A CN 111985538A
Authority
CN
China
Prior art keywords
semantic
attention
small sample
picture classification
sample picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010732273.0A
Other languages
English (en)
Inventor
徐行
徐贤达
沈复民
贾可
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202010732273.0A priority Critical patent/CN111985538A/zh
Publication of CN111985538A publication Critical patent/CN111985538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义辅助注意力机制的小样本图片分类模型及方法,属于计算机视觉中的小样本图片分类领域。本发明***包括卷积神经网络、用于零样本图片分类的扩展模型、空间注意力模块及语义对齐模块。本发明方法包括:选择训练数据集;构建所述的基于语义辅助注意力机制的小样本图片分类模型的网络结构;对训练数据进行预处理操作,划分为训练集、验证集及测试集,每个子数据集再细分为包括支持集和测试集的数据包;训练小样本图片分类模型;验证小样本图片分类模型。本发明结合了注意力机制和多模块学习的原理,分为空间注意力模块和语义对齐模块两个子模块,能够专注于局部区域,能够实现更好的小样本图片分类。

Description

基于语义辅助注意力机制的小样本图片分类模型及方法
技术领域
本发明属于计算机视觉中的小样本图片分类领域,具体涉及一种基于语义辅助注意力机制的小样本图片分类模型及方法。
背景技术
小样本学习问题(Few-shot learning)旨在解决在少样本情况下如何进行有效的机器学习。小样本学习更接近于人类的学习模式,具有很高的学术和工业价值。首先,小样本学习有助于减轻监督数据的采集压力;其次,小样本学习有助于解决稀有样本的学习问题。因为小样本学习一定程度上摆脱了对于大量已标签数据的依赖,它成为了人工智能领域近些年的研究热点之一。
小样本图片分类问题(Few-shot image classification)是小样本学习问题的一个子应用问题,旨在解决提供少量图片样本情况下的分类问题。小样本图片分类的数据集D={Dtrain,Dval,Dtest}由三个子数据集构成,分别是训练数据集、验证数据集和测试数据集。这三个子数据集有着不同的类空间,也就是说某一个子数据集中的某个类不会在另外两个子数据集中出现。
在传统的分类问题中,这三个子数据集共享了同一个类空间并且每个类有着充足的图片样本来进行学习。这也是为什么我们可以轻易地在训练数据集上训练出一个在测试数据集上分类表现出色的分类器。但是在小样本分类问题的情况下,因为此时这三个子数据集有着单独的类空间并且每个类的样本有限,导致传统的分类器训练方法表现很差。因此,研究者为小样本分类问题引入了元学习(Meta-Learning)的概念来学习如何迁移训练时学习到的知识到测试的过程中解决相同的问题。
大多数成功的小样本分类算法都遵循着一种“片段学习(Episodic training)”的训练框架,这种训练框架将任务拆分成多个片段进行,每个小片段中含有来自子数据集的支持集 (Support set)和测试集(Test set),算法利用支持集中已标签图片的信息来完成对于测试集中图片的分类。所有的训练、验证和测试过程都按照片段(Episode)来进行,每个片段是从对应的子数据集中随机选取的。在每个训练片段中,模型根据每个片段的结果进行更新,验证和测试也根据每个片段的结果进行反馈。
嵌入与度量算法是常用的解决小样本分类问题和零样本分类问题的算法之一。对于小样本分类问题来说,嵌入与度量算法通常训练一个神经网络,把所有的已标签和未标签的样本映射到嵌入空间,然后通过某一种距离度量的方式将相似的样本进行匹配。具体地来说,由如下三个步骤构成:1、特征嵌入过程:利用特征嵌入神经网络将支持集和测试集的图片映射到嵌入空间上得到每张图片的特征嵌入向量;2、类中心表示过程:根据支持集图片的特征嵌入向量得到每个类的嵌入向量来表示类中心向量;3、距离度量过程:根据测试集图片的特征嵌入向量和每个类的类中心向量之间的距离来进行分类。
传统的嵌入与度量算法在特征嵌入存在着模糊性问题,使得类中心表示上存在偏差,从而对于分类任务产生负面影响。这个模糊性问题主要是因为传统的卷积神经网络结构关注的区域容易受到外界环境的影响。因此有必要对于传统的卷积神经网络结构进行改进,让它能够专注于局部区域。
发明内容
本发明的目的是提供一种基于语义辅助注意力机制的小样本图片分类模型及方法,通过结合注意力机制和多模块学习的原理,能够专注于局部区域,能够实现更好的小样本图片分类。
本发明解决其技术问题,采用的技术方案是:基于语义辅助注意力机制的小样本图片分类模型,包括卷积神经网络、用于零样本图片分类的扩展模型、空间注意力模块及语义对齐模块;
所述卷积神经网络,用于提取图片特征并且在嵌入空间进行特征的度量;
所述用于零样本图片分类的扩展模型,用于将语义向量映射到嵌入空间得到类中心向量,并将图片映射到嵌入空间得到每张图片的特征向量;
所述空间注意力模块,用于通过在通道维度应用平均池化操作和最大池化操作生成对应的两个视觉图谱,并将这两个视觉图谱进行合并,并利用卷积操作确定在关注位置及抑制位置,得到视觉的注意力图谱;
所述语义对齐模块,用于获取类标签语义嵌入向量,根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,并将所述视觉的注意力图谱及语义的注意力图谱进行激活,得到精炼的注意力图谱。
进一步的,所述卷积神经网络包括四个卷积模块,所述卷积模块具体为:一个含有64个 3×3滤波器的卷积层、一个批量标准化层、一个空间注意力层和一个非线性激活函数层。
进一步的,在所述非线性激活函数层中,支持集样本训练时使用基于语义辅助的注意力模块,测试集样本测试时使用空间注意力层。
进一步的,在每两个卷积模块之间有一个2×2的最大池化层。
进一步的,所述用于零样本图片分类的扩展模型,包括类嵌入网络和特征嵌入网络;
所述类嵌入网络包括一个全连接层、一个批量标准化层和一个非线性激活层,用于将语义向量映射到嵌入空间得到类中心向量;
所述特征嵌入网络选用的是一个预先训练好的GoogLeNet作为特征嵌入模型,用于将图片映射到嵌入空间得到每张图片的特征向量。
进一步的,所述平均池化操作对应的计算公式为:
Figure RE-GDA0002727437180000031
所述最大池化操作对应的计算公式为:
Figure RE-GDA0002727437180000032
其中:H表示输入图片的高度,W表示输入图片的宽度,
Figure RE-GDA0002727437180000033
表示图谱在深度、高度、宽度的维度分别是1、H和W。
进一步的,所述语义对齐模块在获取类标签语义嵌入向量时,其方法为:在预学习语义模型上查询得到对应的类标签向量,经过一个多层感知机MLP之后,得到类标签语义嵌入向量。
进一步的,所述根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,其方法为:将输入图片的特征图谱与对应类的类标签语义嵌入向量进行度量,经过Softmax得到语义的注意力图谱。
进一步的,利用Sigmoid函数将视觉的注意力图谱及语义的注意力图谱一起进行激活,得到精炼的注意力图谱。
进一步的,该小样本图片分类模型在训练时存在损失,所述损失的计算公式为:loss=lossc+λ·lossw
其中,lossc为模型图片分类任务的损失,lossw为语义对齐模块多层感知机MLP的损失,λ作为超参数控制损失的适应性。
进一步的,所述图片分类任务的损失lossc计算方式如下:
Figure RE-GDA0002727437180000034
其中,N代表类的数量,Q代表测试图片的数量,pc代表类c的中心向量,q代表每张测试图片。
进一步的,所述语义对齐模块多层感知机MLP的损失lossw计算方式如下:
Figure RE-GDA0002727437180000041
其中,w代表类的中心向量,F代表输入图谱,Mw表示匹配图谱,函数f表示卷积网络映射,函数fs代表距离度量函数,α是人为设定的边界值。
另外,本发明还提出一种基于语义辅助注意力机制的小样本图片分类模型的构建方法,应用于上述基于语义辅助注意力机制的小样本图片分类模型,包括如下步骤:
步骤1、选择训练数据集;
步骤2、构建所述的基于语义辅助注意力机制的小样本图片分类模型的网络结构;
步骤3、对训练数据进行预处理操作,划分为训练集、验证集及测试集,每个子数据集再细分为包括支持集和测试集的数据包;
步骤4、训练小样本图片分类模型;
步骤5、验证小样本图片分类模型。
进一步的,步骤2中,所述网络结构为卷积神经网络的网络结构。
本发明的有益效果是,通过上述基于语义辅助注意力机制的小样本图片分类模型及方法,通过在小样本图片分类模型中引入基于语义辅助的注意力机制,优化特征提取的过程,从而提高模型在小样本图片分类任务中的性能。并且,该机制结合了注意力机制和多模块学习的原理,分为空间注意力模块和语义对齐模块两个子模块,空间注意力模块能够关注于图片的局部信息,提取代表性的局部特征向量,语义对齐模块对于空间注意力模块进行辅助,通过联结局部特征区域和类标签向量来精炼局部特征。因此,本发明通过结合注意力机制和多模块学习的原理,分为空间注意力模块和语义对齐模块两个子模块,能够专注于局部区域,能够实现更好的小样本图片分类。
附图说明
图1为本发明上述基于语义辅助注意力机制的小样本图片分类方法的流程图;
图2为本发明实施例中,基于语义辅助的注意力机制流程示意图;
图3为本发明实施例中,语义对齐模块的损失计算示意图;
图4为本发明实施例中,本发明的小样本图片分类模型的网络结构图;
图5为本发明实施例中,本发明的零样本图片分类模型的网络结构图;
图6为本发明实施例中,CAM可视化图。
其中,“poodle”表示图片对应的类别,W是预学习语义模型,MLP是多层感知机,D是距离函数,X是相乘函数,S是激活函数,Softmax是柔性最大化函数,w′poodle等表示各类别的类标签向量,D是距离函数,M是差额损失函数,WS是加权和,Conv是卷积层,BN是批量正则化层,SAM是空间注意力层,ReLU是非线性激活函数层,MaxPool是最大值池化层,SAAM 是基于语义辅助的注意力层,A表示属性模型,每个类得到属性向量a,W表示语义模型,每个类得到类标签向量w,FC是全连接层,BN是批量正则化层,ReLU是非线性激活函数层, GoogLeNet是一种经典的深度卷积模型,House Finch、Arctic Fox等分别表示该图片的类别。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
本发明首先提出一种基于语义辅助注意力机制的小样本图片分类模型,包括卷积神经网络、用于零样本图片分类的扩展模型、空间注意力模块及语义对齐模块。
该模型中,卷积神经网络,用于提取图片特征并且在嵌入空间进行特征的度量;用于零样本图片分类的扩展模型,用于将语义向量映射到嵌入空间得到类中心向量,并将图片映射到嵌入空间得到每张图片的特征向量;空间注意力模块,用于通过在通道维度应用平均池化操作和最大池化操作生成对应的两个视觉图谱,并将这两个视觉图谱进行合并,并利用卷积操作确定在关注位置及抑制位置,得到视觉的注意力图谱;语义对齐模块,用于获取类标签语义嵌入向量,根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,并将视觉的注意力图谱及语义的注意力图谱进行激活,得到精炼的注意力图谱。
上述模型中,卷积神经网络优选包括四个卷积模块,卷积模块具体为:一个含有64个 3×3滤波器的卷积层、一个批量标准化层、一个空间注意力层和一个非线性激活函数层。并且,在非线性激活函数层中,支持集样本训练时使用基于语义辅助的注意力模块,测试集样本测试时使用空间注意力层。另外,在每两个卷积模块之间可以有一个2×2的最大池化层。
实际应用时,卷积神经网络作为小样本图片分类模型的基础网络,用于提取图片特征并且在嵌入空间进行特征的度量。网络由4个卷积模块组成,前三个卷积模块包括一个含有64 个3×3滤波器的卷积层(Conv),一个批量标准化层(BN),一个空间注意力层(SAM)和一个非线性激活函数层(ReLU)。在第四个卷积模块,对于支持集样本,空间注意力层被替换为基于语义辅助的注意力模块(SAAM);对于测试集样本,空间注意力层仍然保留。在每两个卷积模块之间有一个2×2的最大池化层(MaxPool)。该4个卷积模块是对于拟合度的一个折中,如果卷积模块太少,会造成欠拟合问题;如果卷积模块太多,会造成过拟合问题。在每个卷积模块中,都有注意力层辅助进行特征的提取,在支持集样本和测试集样本上的区别是,因为利用支持集样本训练的时候每个类的标签可见,所以在第四个卷积模块中,支持集样本训练时使用了基于语义辅助的注意力模块,测试集样本测试时还是使用了空间注意力层。
另外,用于零样本图片分类的扩展模型,可以包括类嵌入网络和特征嵌入网络;类嵌入网络包括一个全连接层、一个批量标准化层和一个非线性激活层,用于将语义向量映射到嵌入空间得到类中心向量;特征嵌入网络选用的是一个预先训练好的GoogLeNet作为特征嵌入模型,用于将图片映射到嵌入空间得到每张图片的特征向量。
需要指出的,平均池化操作对应的计算公式优选为:
Figure RE-GDA0002727437180000061
最大池化操作对应的计算公式优选为:
Figure RE-GDA0002727437180000062
其中:H表示输入图片的高度,W表示输入图片的宽度,
Figure RE-GDA0002727437180000063
表示图谱在深度、高度、宽度的维度分别是1、H和W。
另外,语义对齐模块在获取类标签语义嵌入向量时,其方法优选为:在预学习语义模型上查询得到对应的类标签向量,经过一个多层感知机MLP之后,得到类标签语义嵌入向量;根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,其方法优选为:将输入图片的特征图谱与对应类的类标签语义嵌入向量进行度量,经过Softmax 得到语义的注意力图谱。
本发明中,可以定义基于语义辅助的注意力机制,其由空间注意力模块和语义对齐模块构成。
其中,空间注意力模块旨在挖掘输入特征图谱的特征的内部空间关联,帮助模型确定在输入特征图谱中关注何处区域,将输入特征图谱中关键的区域特征凸显出来,抑制无用特征,形成注意力。具体地来说,空间注意力机制首先在通道维度应用平均池化和最大池化操作生成对应的两个视觉图谱:在这步操作之后,它将这两个视觉图谱进行合并,并利用卷积操作确定在何处关注,何处抑制,得到注意力图谱。
语义对齐模块旨在联结局部特征区域和类标签向量,以精炼空间注意力机制下产生的特征注意力图谱。具体地来说,通过多模态学习视觉信息和语义信息之间的关系,可以帮助模型更好地定位关键性的特征。这里的语义信息指的是从预学习的语义模型中获得的每个类标签的语义向量。我们在GloVe语义模型上查询得到对应的类标签向量,经过一个多层感知机 MLP之后,得到类标签语义嵌入向量。该模块之后将输入图片的特征图谱与对应类的类标签语义嵌入向量进行度量,经过Softmax得到语义的注意力图谱,与空间注意力模块得到的视觉的注意力图谱利用Sigmoid函数一起进行激活,得到精炼的注意力图谱。
一般情况下,该小样本图片分类模型在训练时存在损失,损失的计算公式为:loss=lossc+λ·lossw;其中,lossc为模型图片分类任务的损失,lossw为语义对齐模块多层感知机MLP的损失,λ作为超参数控制损失的适应性。
具体的,图片分类任务的损失lossc计算方式如下:
Figure RE-GDA0002727437180000071
其中,N代表类的数量,Q代表测试图片的数量,pc代表类c的中心向量,q代表每张测试图片。
语义对齐模块多层感知机MLP的损失lossw计算方式如下:
Figure RE-GDA0002727437180000072
其中,w代表类的中心向量,F代表输入图谱,Mw表示匹配图谱,函数f表示卷积网络映射,函数fs代表距离度量函数,α是人为设定的边界值。
因此,本发明提出的小样本图片分类模型着重探索了特征提取的潜能。基于语义辅助的注意力机制能够很好地优化特征提取。它能够为输入特征图谱找寻到精炼的局部特征,使得类中心向量更具有代表性,提升分类的性能。具体地来说,该机制由两个子模块构成,分别是空间注意力模块和语义对齐模块。空间注意力模块用来学习一个掩码,凸显图像空间中的关键性区域,抑制无关性区域,从而使网络模型专注于图像的某块区域,形成注意力。语义对齐模块利用了多模态学习的思想,引入了预先学习的类标签语义向量,通过对齐机制进行视觉语义的嵌入,精炼空间注意力模块的注意力图谱。
所以,见图1,其为本发明基于语义辅助注意力机制的小样本图片分类模型的构建方法的流程图,利用本发明的小样本图片分类模型解决小样本图片分类任务的步骤如下:
步骤1、选择训练数据集;
步骤2、构建的基于语义辅助注意力机制的小样本图片分类模型的网络结构;
步骤3、对训练数据进行预处理操作,划分为训练集、验证集及测试集,每个子数据集再细分为包括支持集和测试集的数据包;
步骤4、训练小样本图片分类模型;
步骤5、验证小样本图片分类模型。
上述方法的步骤2中,网络结构优选为卷积神经网络的网络结构。
这里,将本发明的小样本图片分类模型扩展到解决零样本图片分类任务中。零样本图片分类模型由类嵌入网络和特征提取网络构成。类嵌入网络学习一个线性网络来构建一个1024 维度的嵌入空间。每个线性模块由一个全连接层,一个批量标准化层和一个非线性激活层组成。我们选用数据集提供的默认的类属性向量以及GloVe中获得的类标签向量进行合并,组成一个合并的语义向量进行学习。特征嵌入网络选用的是一个预先训练好的GoogLeNet作为主要的特征嵌入模型。我们将GoogLeNet的最后一层线性层换成了一个新的线性层,使得输出的特征维度能够达到嵌入空间的特征维度。
实施例
本发明实施例以基于语义辅助注意力机制的小样本图片分类模型为例进行详细说明。模块的整体结构图如图2所示。模块由两个分支构成:空间注意力机制和语义对齐机制。假设我们的输入特征图谱为
Figure RE-GDA0002727437180000081
模块旨在为其生成掩码,也就是一个基于语义辅助的注意力图谱
Figure RE-GDA0002727437180000082
因此,假设输出特征图谱为
Figure RE-GDA0002727437180000083
按照如下公式计算:
Figure RE-GDA0002727437180000084
其中,
Figure RE-GDA0002727437180000085
是按位乘法运算,将注意力值应用于输入特征图谱。
空间注意力机制旨在挖掘输入特征图谱的特征的内部空间关联。换句话说,它帮助模型确定在输入特征图谱中关注何处区域,将输入特征图谱中关键的区域特征凸显出来,抑制无用特征,形成注意力。
具体地来说,空间注意力机制首先在通道维度应用平均池化和最大池化操作生成对应的两个视觉图谱:对应平均池化操作的
Figure RE-GDA0002727437180000086
和对应最大池化操作的
Figure RE-GDA0002727437180000087
在这步操作之后,它将这两个视觉图谱进行合并,并利用卷积操作确定在何处关注,何处抑制,得到注意力图谱Ma。整体的计算公式如下所示:
Ma=Conv([favg(F);fmax(F)])
=Conv([Favg;Fmax])
公式中,favg代表平均池化操作,fmax代表最大池化操作,Conv是卷积核为7×7的卷积操作。
语义对齐机制用来联结局部特征区域和类标签向量,以精炼空间注意力机制下产生的特征注意力图谱。需要说明的是,它只应用于支持集的样本,因为测试集的图片在分类时接触不到类标签。具体地来说,通过多模态学习视觉信息和语义信息之间的关系,可以帮助模型更好地定位关键性的特征。这里的语义信息指的是从预学习的语义模型中获得的每个类标签的语义向量。
本实施例中使用的预学习语义模型是GloVe,它的全称是Global Vectors forWord Representation,是一个基于全局词频统计的词表征工具,可以把一个文本单词转换成一个由实数向量。这些实数向量捕捉了单词之间的一些语义特征,比方说相似性、类比性等等。我们通过对实数向量进行相似度计算,可以得到两个单词之间的语义相似度。
GloVe提供了不同维度的语义模型,本实施例中选取的是长度为100的语义模型。如图 4-1所示,以Poodle类为例,类标签“Poodle”在GloVe语义模型上查询获得对应的实数向量wpoodle,在经过一个多层感知机MLP之后,得到语义嵌入向量w′poodle
我们知道,每个片段中包含了来自N个类的图片。所以,对于每一张支持集的样本,它有一个正标签嵌入向量w+,有N-1个负标签嵌入向量
Figure RE-GDA0002727437180000091
正标签嵌入向量用来生成视觉语义匹配图谱Mw,其中Mwi表示w+和输入特征图谱每一块区域Fi之间的相关度。计算公式如下所示:
Figure RE-GDA0002727437180000092
其中,fs是度量两个嵌入向量相似度的相似函数。
因此,经过精炼的特征图谱可以按照下面的公式得到:将两个注意力图谱进行按位相乘并利用Sigmoid函数进行激活:
Figure RE-GDA0002727437180000093
为了联结局部特征区域和类标签向量,我们在这里引入了损失lossw
图3展示的是5-way场景下计算损失的示意图。这里,因为当前支持集样本为“Poodle”类的图片,所以正类便是“Poodle”,其它的4个类便是负类。具体地来说,损失按照下面公式进行计算:
Figure RE-GDA0002727437180000094
其中,α是人为设置的超参数阈值。|x|+是一个简单的运算:
Figure RE-GDA0002727437180000095
加入基于语义辅助的注意力模块后的网络结构如图4所示。
同样的,网络结构由4个卷积模块组成。前三个卷积模块包括一个含有64个3×3滤波器的卷积层,一个批量标准化层,一个空间注意力层和一个非线性激活函数层。在第四个卷积模块,对于支持集样本,空间注意力层被替换为基于语义辅助的注意力模块,对于测试集样本,空间注意力层仍然保留。在每两个卷积模块之间有一个2×2的最大池化层。
网络为片段里面的所有支持集样本和测试集图片生成维度为1600的嵌入特征向量。这些向量被送入之后的度量学习模块进行类中心表示和距离度量过程。支持集样本的嵌入特征向量用来生成类中心表示,测试集图片的嵌入特征向量和每个类中心表示进行距离度量从而进行分类。
在零样本分类中,本论文研究拓展了小样本分类的方法,引入了附加的语义信息,也就是类标签向量,来优化类中心嵌入的过程。具体地来说,类特征向量和类标签向量将会被组合为合并的语义向量。类嵌入网络在该合并的语义向量中学习映射的方法,将其映射到嵌入空间中形成类中心向量。网络结构遵循了大多数嵌入与度量算法在零样本分类问题上的网络结构,如图5所示:
类嵌入网络学习一个线性网络来构建一个1024维度的嵌入空间。每个线性模块由一个全连接层,一个批量标准化层和一个非线性激活层组成。我们选用数据集提供的默认的类属性向量以及GloVe中获得的类标签向量进行合并,组成一个合并的语义向量进行学习。
特征嵌入网络选用的是一个预先训练好的GoogLeNet作为主要的特征嵌入模型。GoogLeNet是2014年ImageNet挑战赛的冠军。在它诞生之前,多数的神经网络结构都是通过增大网络的深度来获得更好的训练效果,而GoogLeNet创新性地提出了Inception的结构,从另一种角度进行优化:更加高效地利用计算的资源,在相同的计算资源限制下提取出更多的特征量,从而提升训练效果。为了使得特征嵌入网络提取的特征维度与嵌入空间的特征维度保持一致,我们将GoogLeNet的最后一层线性层换成了一个新的线性层,使得输出的特征维度能够达到嵌入空间的特征维度,也就是1024。
经验证,CAM可视化实验结果如图6所示。

Claims (14)

1.基于语义辅助注意力机制的小样本图片分类模型,其特征在于,包括卷积神经网络、用于零样本图片分类的扩展模型、空间注意力模块及语义对齐模块;
所述卷积神经网络,用于提取图片特征并且在嵌入空间进行特征的度量;
所述用于零样本图片分类的扩展模型,用于将语义向量映射到嵌入空间得到类中心向量,并将图片映射到嵌入空间得到每张图片的特征向量;
所述空间注意力模块,用于通过在通道维度应用平均池化操作和最大池化操作生成对应的两个视觉图谱,并将这两个视觉图谱进行合并,并利用卷积操作确定在关注位置及抑制位置,得到视觉的注意力图谱;
所述语义对齐模块,用于获取类标签语义嵌入向量,根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,并将所述视觉的注意力图谱及语义的注意力图谱进行激活,得到精炼的注意力图谱。
2.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述卷积神经网络包括四个卷积模块,所述卷积模块具体为:一个含有64个3×3滤波器的卷积层、一个批量标准化层、一个空间注意力层和一个非线性激活函数层。
3.根据权利要求2所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,在所述非线性激活函数层中,支持集样本训练时使用基于语义辅助的注意力模块,测试集样本测试时使用空间注意力层。
4.根据权利要求2或3所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,在每两个卷积模块之间有一个2×2的最大池化层。
5.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述用于零样本图片分类的扩展模型,包括类嵌入网络和特征嵌入网络;
所述类嵌入网络包括一个全连接层、一个批量标准化层和一个非线性激活层,用于将语义向量映射到嵌入空间得到类中心向量;
所述特征嵌入网络选用的是一个预先训练好的GoogLeNet作为特征嵌入模型,用于将图片映射到嵌入空间得到每张图片的特征向量。
6.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述平均池化操作对应的计算公式为:
Figure RE-RE-FDA0002727437170000011
所述最大池化操作对应的计算公式为:
Figure RE-RE-FDA0002727437170000012
其中:H表示输入图片的高度,W表示输入图片的宽度,
Figure RE-RE-FDA0002727437170000013
表示图谱在深度、高度、宽度的维度分别是1、H和W。
7.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述语义对齐模块在获取类标签语义嵌入向量时,其方法为:在预学习语义模型上查询得到对应的类标签向量,经过一个多层感知机MLP之后,得到类标签语义嵌入向量。
8.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述根据输入图片的特征图谱与对应类的类标签语义嵌入向量计算得到语义的注意力图谱,其方法为:将输入图片的特征图谱与对应类的类标签语义嵌入向量进行度量,经过Softmax得到语义的注意力图谱。
9.根据权利要求1或7或8所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,利用Sigmoid函数将视觉的注意力图谱及语义的注意力图谱一起进行激活,得到精炼的注意力图谱。
10.根据权利要求1所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,该小样本图片分类模型在训练时存在损失,所述损失的计算公式为:loss=lossc+λ·lossw
其中,lossc为模型图片分类任务的损失,lossw为语义对齐模块多层感知机MLP的损失,λ作为超参数控制损失的适应性。
11.根据权利要求10所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述图片分类任务的损失lossc计算方式如下:
Figure RE-RE-FDA0002727437170000021
其中,N代表类的数量,Q代表测试图片的数量,pc代表类c的中心向量,q代表每张测试图片。
12.根据权利要求10或11所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,所述语义对齐模块多层感知机MLP的损失lossw计算方式如下:
Figure RE-RE-FDA0002727437170000022
其中,w代表类的中心向量,F代表输入图谱,Mw表示匹配图谱,函数f表示卷积网络映射,函数fs代表距离度量函数,α是人为设定的边界值。
13.基于语义辅助注意力机制的小样本图片分类模型的构建方法,应用于权利要求1-12所述的基于语义辅助注意力机制的小样本图片分类模型,其特征在于,包括如下步骤:
步骤1、选择训练数据集;
步骤2、构建所述的基于语义辅助注意力机制的小样本图片分类模型的网络结构;
步骤3、对训练数据进行预处理操作,划分为训练集、验证集及测试集,每个子数据集再细分为包括支持集和测试集的数据包;
步骤4、训练小样本图片分类模型;
步骤5、验证小样本图片分类模型。
14.根据权利要求13所述的基于语义辅助注意力机制的小样本图片分类模型的构建方法,其特征在于,步骤2中,所述网络结构为卷积神经网络的网络结构。
CN202010732273.0A 2020-07-27 2020-07-27 基于语义辅助注意力机制的小样本图片分类模型及方法 Pending CN111985538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010732273.0A CN111985538A (zh) 2020-07-27 2020-07-27 基于语义辅助注意力机制的小样本图片分类模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010732273.0A CN111985538A (zh) 2020-07-27 2020-07-27 基于语义辅助注意力机制的小样本图片分类模型及方法

Publications (1)

Publication Number Publication Date
CN111985538A true CN111985538A (zh) 2020-11-24

Family

ID=73444272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010732273.0A Pending CN111985538A (zh) 2020-07-27 2020-07-27 基于语义辅助注意力机制的小样本图片分类模型及方法

Country Status (1)

Country Link
CN (1) CN111985538A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990282A (zh) * 2021-03-03 2021-06-18 华南理工大学 一种细粒度小样本图像的分类方法及装置
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113298096A (zh) * 2021-07-07 2021-08-24 中国人民解放军国防科技大学 训练零样本分类模型的方法、***、电子设备及存储介质
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113435531A (zh) * 2021-07-07 2021-09-24 中国人民解放军国防科技大学 零样本图像分类方法、***、电子设备及存储介质
CN113610164A (zh) * 2021-08-10 2021-11-05 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113869418A (zh) * 2021-09-29 2021-12-31 哈尔滨工程大学 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN113989405A (zh) * 2021-12-27 2022-01-28 浙江大学 一种基于小样本持续学习的图像生成方法
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990282A (zh) * 2021-03-03 2021-06-18 华南理工大学 一种细粒度小样本图像的分类方法及装置
CN112990282B (zh) * 2021-03-03 2023-07-18 华南理工大学 一种细粒度小样本图像的分类方法及装置
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113435531B (zh) * 2021-07-07 2022-06-21 中国人民解放军国防科技大学 零样本图像分类方法、***、电子设备及存储介质
CN113298096B (zh) * 2021-07-07 2021-10-01 中国人民解放军国防科技大学 训练零样本分类模型的方法、***、电子设备及存储介质
CN113435531A (zh) * 2021-07-07 2021-09-24 中国人民解放军国防科技大学 零样本图像分类方法、***、电子设备及存储介质
CN113298096A (zh) * 2021-07-07 2021-08-24 中国人民解放军国防科技大学 训练零样本分类模型的方法、***、电子设备及存储介质
CN113610164A (zh) * 2021-08-10 2021-11-05 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113610164B (zh) * 2021-08-10 2023-12-22 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113869418A (zh) * 2021-09-29 2021-12-31 哈尔滨工程大学 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN113989405A (zh) * 2021-12-27 2022-01-28 浙江大学 一种基于小样本持续学习的图像生成方法
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质
CN116503674B (zh) * 2023-06-27 2023-10-20 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质

Similar Documents

Publication Publication Date Title
CN111985538A (zh) 基于语义辅助注意力机制的小样本图片分类模型及方法
Huang et al. Instance-aware image and sentence matching with selective multimodal lstm
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及***
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
Tang et al. RGBT salient object detection: Benchmark and a novel cooperative ranking approach
CN114067160A (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
Gao et al. Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework
Jiang et al. Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network
Peng et al. Cross domain knowledge learning with dual-branch adversarial network for vehicle re-identification
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
Li et al. Robust deep neural networks for road extraction from remote sensing images
Li et al. Transfer learning for toxoplasma gondii recognition
Wang et al. Deep multi-person kinship matching and recognition for family photos
Zhang et al. Learning to detect salient object with multi-source weak supervision
Suhail et al. Convolutional neural network based object detection: A review
Xiong et al. An interpretable fusion siamese network for multi-modality remote sensing ship image retrieval
Xu et al. Graphical modeling for multi-source domain adaptation
Guo et al. Multi-view feature learning for VHR remote sensing image classification
CN116737979A (zh) 基于上下文引导多模态关联的图像文本检索方法及***
Al-Jubouri et al. A comparative analysis of automatic deep neural networks for image retrieval
Bachay et al. Hybrid Deep Learning Model Based on Autoencoder and CNN for Palmprint Authentication.
Akbar et al. Face recognition using hybrid feature space in conjunction with support vector machine
Huo et al. UTDNet: A unified triplet decoder network for multimodal salient object detection
CN114299342A (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination