CN115546553A - 一种基于动态特征抽取和属性修正的零样本分类方法 - Google Patents

一种基于动态特征抽取和属性修正的零样本分类方法 Download PDF

Info

Publication number
CN115546553A
CN115546553A CN202211268579.0A CN202211268579A CN115546553A CN 115546553 A CN115546553 A CN 115546553A CN 202211268579 A CN202211268579 A CN 202211268579A CN 115546553 A CN115546553 A CN 115546553A
Authority
CN
China
Prior art keywords
attribute
feature extraction
features
attribute correction
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211268579.0A
Other languages
English (en)
Inventor
贺喆南
徐浚哲
吕建成
汤臣薇
江姗霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211268579.0A priority Critical patent/CN115546553A/zh
Publication of CN115546553A publication Critical patent/CN115546553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态特征抽取和属性修正的零样本分类方法,包括以下步骤:获取视觉样本和语义特征;构建基于动态特征抽取和属性修正的零样本学习网络;将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络,得到并根据视觉样本特征和修正后的语义特征计算损失值,将损失值反向传播重复本步骤直至训练结束;对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证;若准确率高于预定值则进入下一步;否则返回上一步;采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。本发明针对不同属性的不同性质采用不同的特征抽取方法,提出属性修正概念,增强了网络的表征能力。

Description

一种基于动态特征抽取和属性修正的零样本分类方法
技术领域
本发明涉及零样本识别领域,具体包括一种基于动态特征抽取和属性修正的零样本分类方法。
背景技术
在传统的深度学习分类算法研究中,训练集中的样本包括了该数据集中的所有的标签分布信息,此时模型可以通过对训练集的学习来掌握样本分布的所有知识并且在测试集上通过测试模型的预测准确率来验证模型的学习效果。在这样的情况下,训练集和测试集拥有同样的标签是验证模型效果的关键。但是在部分特殊的应用场景下,某些类别的训练样本可能难以获得或者样本的标签难以标注,此时由于没有这些样本的标签信息,预先训练好的模型无法在这些类别上进行预测,这一现实难题大大限制了深度学习模型应用的范围。因此,为了解决在新的类别上预测的问题,零样本学习任务被提出,该任务试图让一个模型能在已经能识别训练集中已有类别的情况下准确地识别那些训练集中没有见过的类别的样本。这种让模型在没有见过任何样本的情况下学习不可见类别的知识的任务大大扩宽了深度学习的应用面,具有很高的研究价值。
为了研究零样本学习,研究者们提出和设计了若干数据集,每个数据集中包括大量的视觉样本X。假设所有视觉样本的所有类别为
Figure BDA0003894453150000011
其中
Figure BDA0003894453150000012
是模型训练时会见到的可见类,数量为Ns,属于可见类的视觉样本可以记录为Xs
Figure BDA0003894453150000013
类是测试集用来检测模型零样本学习性能的不可见类,数量为Nu,属于不可见类的视觉样本可以记录为Xu。值得注意的是,可见类和不可见类是没有任何重合的并且涵盖了数据集中所有的类,即
Figure BDA0003894453150000014
为了使模型在没有样本的情况下进行学习,研究者们在数据集中引入了语义特征这个概念,每个类有一个对应的语义特征
Figure BDA0003894453150000021
假设数据集中所有类的语义特征可以表示为A,其中
Figure BDA0003894453150000022
表示所有可见类的语义特征,
Figure BDA0003894453150000023
表示不可见类的语义特征,K表示语义特征向量的维度,其中,每一维度都可以表示为一个特定的属性,因此每个语义特征可以被K种属性的组合所表示。在零样本学习模型训练的时候,模型可以看到可见类的视觉样本Xs,和包括不可见类在内的所有类的语义A。零样本学习旨在以语义特征A作为桥梁,让模型通过可见类和不可见类的语义之间的关系来学习其对应的视觉样本之间的关系,从而对测试集中不可见类的视觉样本做出准确的预测。
目前,零样本学习有三大主流技术:
现有技术一:基于跨模态映射的学习算法,该算法将原本分布在视觉空间中的视觉样本和分布在语义空间中的语义特征映射到同一个空间,并且以语义特征为中心点对齐视觉样本分布,在测试阶段将不可见类的视觉样本映射到该空间中进行分类。
该技术的缺点在于视觉样本的特征抽取质量无法得到保证,该方法使用视觉样本的全局特征和语义特征进行对齐却忽视了对样本局部特征进行抽取和理解,这会导致视觉样本的某些冗余特征影响到模型的训练,最终降低算法的性能。
现有技术二:基于生成的方法,该方法直击零样本学习的核心问题:缺少不可见类的样本。通过以语义为参考生成大量不可见类的样本,最终将零样本学习任务转化成标准的监督学习任务。
该技术的主要缺点和现有技术一类似,就是使用了全局特征作为视觉样本的特征表达进行模型训练而忽视了局部特征的重要性。为了实现高质量的不可见类样本生成,我们往往希望模型在和语义相关的特定属性上具有较好的生成能力,而那些和语义无关的背景部分则不是那么重要,但是这种基于全局特征的生成方法往往没有针对这一点做出考虑,因此生成质量无法获得保证。
现有技术三:基于注意力机制的方法,该方法将语义分解成不同的属性,以属性为单位在视觉图片上进行特征抽取,随后将抽取出来的属性特征作为图片的特征表达和语义进行对齐,由于语义是由不同的属性组合起来的,并且属性在不同的类之间是通用的,因此根据属性抽取出来的特征可以很好地实现对不可见类视觉样本的预测。
尽管该技术路线首次考虑到了局部特征的重要性,但该技术仍然存在两大缺点,第一大缺点在于并没有对属性的类别做出有针对性的讨论。语义的属性一般可以被分成两种,第一种是基于低级纹理的属性,这种属性往往是描述视觉样本的主体的特定部位的颜色或者形状特征,这是可以很容易被模型提取到的。另外一种属性是需要理解相关内容的高级抽象属性,例如动物的食草属性,是无法通过低级纹理捕捉到的。现有的方案统一使用一套用于抽取低级纹理属性的方法来抽取所有属性的特征,缺乏对高级抽象属性的考虑。另一个缺点是现有的技术往往将一个固定的属性特征作为目标进行预测,但是实际上由于不同的视觉样本在拍摄时可能由于角度,光线的不同,导致语义特征也会产生变化。因此用固定的属性值来描述一个类中的所有视觉样本忽略了不同视觉样本中属性的特征变化,最后造成特征抽取效果不佳。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于动态特征抽取和属性修正的零样本分类方法解决了现有技术中缺乏对高级抽象属性的考虑、忽略了不同视觉样本中属性的特征变化的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于动态特征抽取和属性修正的零样本分类方法,包括以下步骤:
S1、获取视觉样本x、语义特征α;
S2、构建基于动态特征抽取和属性修正的零样本学习网络;
S3、将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络,得到并根据视觉样本特征和修正后的语义特征计算损失函数,根据损失函数计算损失值并将损失值进行梯度回传;重复本步骤直至训练结束;
S4、对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证;若准确率高于预定值则进入步骤S5;否则进入步骤S3;
S5、采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。
进一步地,基于动态特征抽取和属性修正的零样本学习网络包括特征抽取主干网络、属性定位网络、属性修正网络、尺度控制单元和损失值计算模块;
特征抽取主干网络的第一输出端连接属性修正网络的第一输入端;特征抽取主干网络的第二输出端连接属性定位网络的第一输入端;特征抽取主干网络的第三输出端连接尺度控制单元的输入端;尺度控制单元的第一输出端连接属性修正网络的第二输入端;尺度控制单元的第二输出端连接属性定位网络的第二输入端;属性定位网络的输出端和属性修正网络的输出端连接损失值计算模块。
进一步地,步骤S3的具体实现方式如下:
S3-1、通过属性定位网络对视觉样本特征属性定位并提取局部特征和全局特征;
S3-2、通过属性修正网络提取属性修正所需的局部特征和全局特征;
S3-3、通过尺度控制单元融合属性定位网络和属性修正网络提取的局部特征和全局特征,获得属性修正值和视觉样本特征;
S3-4、根据属性修正值对语义特征进行修正,得到修正后的语义特征;
S3-5、根据视觉样本特征和修正后的语义特征之间的距离计算损失值;回传损失值,更新基于动态特征抽取和属性修正的零样本学习网络参数。
进一步地,步骤S3-1的具体实现方式如下:
S3-1-1、通过特征抽取主干网络获取视觉样本x的视觉样本特征图
Figure BDA0003894453150000051
其中,C表示特征图的通道数,即每个像素点的特征的维数;H表示特征图的高度;W表示特征图的宽度;
Figure BDA0003894453150000052
表示数据的形状;
S3-1-2、根据公式:
Figure BDA0003894453150000053
得到视觉样本的局部特征uL;其中,i表示特征图的高度;j表示特征图的宽度;
Figure BDA0003894453150000054
为属性图,表示属性在特征图上的分布情况,K表示属性的数量,w表示注意力权重,v表示属性的具体分布值;softmax函数表示将每个通道上的特征图的像素值归一化到0-1之间;φv和φw表示两个卷积核大小为1×1的卷积层;
Figure BDA0003894453150000055
S3-1-3、根据公式:
Figure BDA0003894453150000056
得到视觉样本的全局特征uG;其中;
Figure BDA0003894453150000057
i'表示特征图的高度;j'表示特征图的宽度。
进一步地,步骤S3-2的具体实现方式如下:
根据公式:
Figure BDA0003894453150000061
得到每个属性的局部特征tL和每个属性的全局特征tG;其中,φr表示计算属性修正值的卷积核大小为1×1的卷积核;maxc’,d’表示全局最大池化;c'表示特征图的高度;d'表示特征图的宽度;
Figure BDA0003894453150000062
进一步地,步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure BDA0003894453150000063
得到属性是局部属性还是全局属性的概率g;其中,φs表示卷积核为1×1的卷积层;c表示特征图的高度;d表示特征图的宽度;
S3-3-2、根据公式:
Figure BDA0003894453150000064
得到属性修正值
Figure BDA0003894453150000065
和视觉样本特征ψ(x)。
进一步地,步骤S3-4的具体实现方式如下:
根据公式:
Figure BDA0003894453150000066
得到修正后的语义特征πm(α);其中,Normalize表示将向量长度归一化到1;
Figure BDA0003894453150000067
表示第m类的语义特征中第n维对应的值,n=1,2,...,K;
Figure BDA0003894453150000068
表示
Figure BDA0003894453150000069
的第n维对应的值。
进一步地,步骤S3-5的具体实现方式如下:
S3-5-1、根据公式:
Figure BDA0003894453150000071
得到分类损失
Figure BDA0003894453150000072
和距离损失
Figure BDA0003894453150000073
其中,NB表示每一轮学***方;
Figure BDA0003894453150000075
是可见类;αq是可见类中第q个类的语义特征;
S3-5-2、根据公式:
Figure BDA0003894453150000076
得到基于动态特征抽取和属性修正的零样本学习网络的预测值和真实值的差距
Figure BDA0003894453150000077
即最终的损失函数。
S3-5-3、根据损失函数计算损失值并进行梯度回传,更新基于动态特征抽取和属性修正的零样本学习网络参数。
本发明的有益效果为:本发明对语义的属性进行分类,设计了一套全面的属性特征抽取方法。对于那些基于低级纹理的属性,仍然保留基于注意力机制的局部特征抽取,对于那些基于内容理解的高级抽象属性,采用视觉样本的全局特征作为其特征表达。将局部特征和全局特征进行特征融合,以门控单元为权重,调节两种特征的属性占比,最终实现对视觉样本特征的抽取。提出属性修正概念,设计了一个属性修正模块对属性值进行修改,让属性的值更加逼近视觉样本的真实表达。将视觉样本提取的特征和该修正后的属性对齐,增强网络的表征能力。
附图说明
图1为本发明流程图;
图2为本发明网络结构图;
图3为属性定位模块注意力机制可视化图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于动态特征抽取和属性修正的零样本分类方法,包括以下步骤:
S1、获取视觉样本x、语义特征α;
S2、构建基于动态特征抽取和属性修正的零样本学习网络;
S3、将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络,得到并根据视觉样本特征和修正后的语义特征计算损失函数,根据损失函数计算损失值并将损失值进行梯度回传;重复本步骤直至训练结束;
S4、对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证;若准确率高于预定值则进入步骤S5;否则进入步骤S3;
S5、采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。
步骤S3的具体实现方式如下:
S3-1、通过属性定位网络对视觉样本特征属性定位并提取局部特征和全局特征;
S3-2、通过属性修正网络提取属性修正所需的局部特征和全局特征;
S3-3、通过尺度控制单元融合属性定位网络和属性修正网络提取的局部特征和全局特征,获得属性修正值和视觉样本特征;
S3-4、根据属性修正值对语义特征进行修正,得到修正后的语义特征;
S3-5、根据视觉样本特征和修正后的语义特征之间的距离计算损失值;回传损失值,更新基于动态特征抽取和属性修正的零样本学习网络参数。
步骤S3-1的具体实现方式如下:
S3-1-1、通过特征抽取主干网络获取视觉样本x的视觉样本特征图
Figure BDA0003894453150000091
其中,C表示特征图的通道数,即每个像素点的特征的维数;H表示特征图的高度;W表示特征图的宽度;
Figure BDA0003894453150000092
表示数据的形状;
S3-1-2、根据公式:
Figure BDA0003894453150000093
得到视觉样本的局部特征uL;其中,i表示特征图的高度;j表示特征图的宽度;
Figure BDA0003894453150000094
为属性图,表示属性在特征图上的分布情况,K表示属性的数量,w表示注意力权重,v表示属性的具体分布值;softmax函数表示将每个通道上的特征图的像素值归一化到0-1之间;φv和φw表示两个卷积核大小为1×1的卷积层;
Figure BDA0003894453150000095
S3-1-3、根据公式:
Figure BDA0003894453150000096
得到视觉样本的全局特征uG;其中;
Figure BDA0003894453150000097
i'表示特征图的高度;j'表示特征图的宽度。
步骤S3-2的具体实现方式如下:
根据公式:
Figure BDA0003894453150000101
得到每个属性的局部特征tL和每个属性的全局特征tG;其中,φr表示计算属性修正值的卷积核大小为1×1的卷积核;maxc’,d’表示全局最大池化;c'表示特征图的高度;d'表示特征图的宽度;
Figure BDA0003894453150000102
步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure BDA0003894453150000103
得到属性是局部属性还是全局属性的概率g;其中,φs表示卷积核为1×1的卷积层;c表示特征图的高度;d表示特征图的宽度;
S3-3-2、根据公式:
Figure BDA0003894453150000104
得到属性修正值
Figure BDA0003894453150000105
和视觉样本特征ψ(x)。
步骤S3-4的具体实现方式如下:
根据公式:
Figure BDA0003894453150000106
得到修正后的语义特征πm(α);其中,Normalize表示将向量长度归一化到1;
Figure BDA0003894453150000107
表示第m类的语义特征中第n维对应的值,n=1,2,...,K;
Figure BDA0003894453150000108
表示
Figure BDA0003894453150000109
的第n维对应的值。
步骤S3-5的具体实现方式如下:
S3-5-1、根据公式:
Figure BDA0003894453150000111
得到分类损失
Figure BDA0003894453150000112
和距离损失
Figure BDA0003894453150000113
其中,NB表示每一轮学***方;
Figure BDA0003894453150000115
是可见类;αq是可见类中第q个类的语义特征;
S3-5-2、根据公式:
Figure BDA0003894453150000116
得到基于动态特征抽取和属性修正的零样本学习网络的预测值和真实值的差距
Figure BDA0003894453150000117
即最终的损失函数。
S3-5-3、根据损失函数计算损失值并进行梯度回传,更新基于动态特征抽取和属性修正的零样本学习网络参数。
如图2所示,基于动态特征抽取和属性修正的零样本学习网络包括特征抽取主干网络、属性定位网络、属性修正网络、尺度控制单元和损失值计算模块;
特征抽取主干网络的第一输出端连接属性修正网络的第一输入端;特征抽取主干网络的第二输出端连接属性定位网络的第一输入端;特征抽取主干网络的第三输出端连接尺度控制单元的输入端;尺度控制单元的第一输出端连接属性修正网络的第二输入端;尺度控制单元的第二输出端连接属性定位网络的第二输入端;属性定位网络的输出端和属性修正网络的输出端连接损失值计算模块。
如图3所示,SUN表示的是场景理解数据集,CUB表示的是细粒度鸟类分类数据集。可以看出,模型对于局部特征的定位十分准确,例如,对于鸟类的身体不同部位的定位以及在复杂场景下对于静水,围栏的定位。除此之外,模型对于需要内容理解的复杂属性,例如,SUN数据集中的开放场地,模型对整张图片都赋予了较高的注意力权重值,这是符合开放场地的定义的。
在本发明的一个实施例中,softmax函数将每个通道上的特征图的像素值归一化到0-1之间,以此来表示注意力权重,值高的像素代表更高的重要性。全局最大池化可以被认为是注意力机制的一个特殊表现形式,也就是只有一个像素点的权重为1,其他像素点权重为0。基于动态特征抽取和属性修正的零样本学***均池化将每个属性在图上的特征综合起来获得图片对于该属性是属于全局属性还是局部属性的评判分数,最后用sigmoid函数将该分数归一化到0-1之间。分类损失
Figure BDA0003894453150000121
使属性定位模块抽取出来的视觉样本特征和通过属性修正模块修正之后的语义特征在余弦相似度上拉近,这是整体语义级别的对齐;距离损失
Figure BDA0003894453150000122
直接要求样本特征和修正语义在每一个维度上相同,这是要求抽取得到的样本特征在每一维度上都和修正语义相同,这是属性级别的对齐。
在定量分析上,本发明相较于现有技术,获得了更高的测试集预测准确率,如表1所示。
表1
Figure BDA0003894453150000123
Figure BDA0003894453150000131
零样本学***均数H,通常调和平均数越高表示算法的综合性能越好。通过表1可以看出,本发明在准确率的调和平均数上相较于现有技术有较大的提升,这证明了本发明的优越性。
在定性分析上,通过注意力机制的可视化分析,可以说明本发明在抽取属性特征这一关键任务上获得了不错的效果。
本发明对语义的属性进行分类,设计了一套全面的属性特征抽取方法。对于那些基于低级纹理的属性,仍然保留基于注意力机制的局部特征抽取,对于那些基于内容理解的高级抽象属性,采用视觉样本的全局特征作为其特征表达。将局部特征和全局特征进行特征融合,以门控单元为权重,调节两种特征的属性占比,最终实现对视觉样本特征的抽取。提出属性修正概念,设计了一个属性修正模块对属性值进行修改,让属性的值更加逼近视觉样本的真实表达。将视觉样本提取的特征和该修正后的属性对齐,增强网络的表征能力。

Claims (8)

1.一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,包括以下步骤:
S1、获取视觉样本x和语义特征α;
S2、构建基于动态特征抽取和属性修正的零样本学习网络;
S3、将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络,得到并根据视觉样本特征和修正后的语义特征计算损失函数,根据损失函数计算损失值并将损失值进行梯度回传;重复本步骤直至训练结束;
S4、对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证;若准确率高于预定值则进入步骤S5;否则进入步骤S3;
S5、采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。
2.根据权利要求1所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,基于动态特征抽取和属性修正的零样本学习网络包括特征抽取主干网络、属性定位网络、属性修正网络、尺度控制单元和损失值计算模块;
特征抽取主干网络的第一输出端连接属性修正网络的第一输入端;特征抽取主干网络的第二输出端连接属性定位网络的第一输入端;特征抽取主干网络的第三输出端连接尺度控制单元的输入端;尺度控制单元的第一输出端连接属性修正网络的第二输入端;尺度控制单元的第二输出端连接属性定位网络的第二输入端;属性定位网络的输出端和属性修正网络的输出端连接损失值计算模块。
3.根据权利要求2所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3的具体实现方式如下:
S3-1、通过属性定位网络对视觉样本特征属性定位并提取局部特征和全局特征;
S3-2、通过属性修正网络提取属性修正所需的局部特征和全局特征;
S3-3、通过尺度控制单元融合属性定位网络和属性修正网络提取的局部特征和全局特征,获得属性修正值和视觉样本特征;
S3-4、根据属性修正值对语义特征进行修正,得到修正后的语义特征;
S3-5、根据视觉样本特征和修正后的语义特征之间的距离计算损失值;回传损失值,更新基于动态特征抽取和属性修正的零样本学习网络参数。
4.根据权利要求3所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3-1的具体实现方式如下:
S3-1-1、通过特征抽取主干网络获取视觉样本x的视觉样本特征图
Figure FDA0003894453140000021
其中,C表示特征图的通道数,即每个像素点的特征的维数;H表示特征图的高度;W表示特征图的宽度;
Figure FDA0003894453140000022
表示数据的形状;
S3-1-2、根据公式:
Figure FDA0003894453140000023
得到视觉样本的局部特征uL;其中,i表示特征图的高度;j表示特征图的宽度;
Figure FDA0003894453140000024
为属性图,表示属性在特征图上的分布情况,K表示属性的数量,w表示注意力权重,v表示属性的具体分布值;softmax函数表示将每个通道上的特征图的像素值归一化到0-1之间;φv和φw表示两个卷积核大小为1×1的卷积层;
Figure FDA0003894453140000025
S3-1-3、根据公式:
Figure FDA0003894453140000031
得到视觉样本的全局特征uG;其中;
Figure FDA0003894453140000032
i'表示特征图的高度;j'表示特征图的宽度。
5.根据权利要求4所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3-2的具体实现方式如下:
根据公式:
Figure FDA0003894453140000033
得到每个属性的局部特征tL和每个属性的全局特征tG;其中,φr表示计算属性修正值的卷积核大小为1×1的卷积核;maxc’,d’表示全局最大池化;c'表示特征图的高度;d'表示特征图的宽度;
Figure FDA0003894453140000034
6.根据权利要求5所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure FDA0003894453140000035
得到属性是局部属性还是全局属性的概率g;其中,φs表示卷积核为1×1的卷积层;c表示特征图的高度;d表示特征图的宽度;
S3-3-2、根据公式:
Figure FDA0003894453140000036
得到属性修正值
Figure FDA0003894453140000037
和视觉样本特征ψ(x)。
7.根据权利要求6所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3-4的具体实现方式如下:
根据公式:
Figure FDA0003894453140000041
得到修正后的语义特征πm(α);其中,Normalize表示将向量长度归一化到1;
Figure FDA0003894453140000042
表示第m类的语义特征中第n维对应的值,n=1,2,...,K;
Figure FDA0003894453140000043
表示
Figure FDA0003894453140000044
的第n维对应的值。
8.根据权利要求7所述的一种基于动态特征抽取和属性修正的零样本分类方法,其特征在于,步骤S3-5的具体实现方式如下:
S3-5-1、根据公式:
Figure FDA0003894453140000045
得到分类损失
Figure FDA0003894453140000046
和距离损失
Figure FDA0003894453140000047
其中,NB表示每一轮学***方;
Figure FDA0003894453140000049
是可见类;αq是可见类中第q个类的语义特征;
S3-5-2、根据公式:
Figure FDA00038944531400000410
得到基于动态特征抽取和属性修正的零样本学习网络的预测值和真实值的差距
Figure FDA00038944531400000411
即最终的损失函数。
S3-5-3、根据损失函数计算损失值并进行梯度回传,更新基于动态特征抽取和属性修正的零样本学习网络参数。
CN202211268579.0A 2022-10-17 2022-10-17 一种基于动态特征抽取和属性修正的零样本分类方法 Pending CN115546553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211268579.0A CN115546553A (zh) 2022-10-17 2022-10-17 一种基于动态特征抽取和属性修正的零样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211268579.0A CN115546553A (zh) 2022-10-17 2022-10-17 一种基于动态特征抽取和属性修正的零样本分类方法

Publications (1)

Publication Number Publication Date
CN115546553A true CN115546553A (zh) 2022-12-30

Family

ID=84736103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211268579.0A Pending CN115546553A (zh) 2022-10-17 2022-10-17 一种基于动态特征抽取和属性修正的零样本分类方法

Country Status (1)

Country Link
CN (1) CN115546553A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274717A (zh) * 2023-10-24 2023-12-22 中国人民解放军空军预警学院 基于全局与局部视觉特征映射网络的弹道目标识别方法
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274717A (zh) * 2023-10-24 2023-12-22 中国人民解放军空军预警学院 基于全局与局部视觉特征映射网络的弹道目标识别方法
CN117274717B (zh) * 2023-10-24 2024-07-02 中国人民解放军空军预警学院 基于全局与局部视觉特征映射网络的弹道目标识别方法
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***
CN117388893B (zh) * 2023-12-11 2024-03-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***

Similar Documents

Publication Publication Date Title
CN110110642B (zh) 一种基于多通道注意力特征的行人重识别方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN109993072B (zh) 基于超分辨图像生成的低分辨率行人重识别***和方法
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别***及方法
CN113177559B (zh) 结合广度和密集卷积神经网络的图像识别方法、***、设备及介质
CN111738113A (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN114119585B (zh) 基于Transformer的关键特征增强胃癌图像识别方法
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
Pei et al. Consistency guided network for degraded image classification
CN112149689B (zh) 基于目标领域自监督学习的无监督领域适应方法和***
CN112712052A (zh) 一种机场全景视频中微弱目标的检测识别方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及***
CN115391625A (zh) 一种基于多粒度特征融合的跨模态检索方法和***
CN114820655A (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN110659601A (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN113255701B (zh) 一种基于绝对-相对学习架构的小样本学习方法和***
CN105740879B (zh) 基于多模态判别分析的零样本图像分类方法
WO2022252089A1 (zh) 对象检测模型的训练方法、对象检测方法及装置
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination