CN113642621A - 基于生成对抗网络的零样本图像分类方法 - Google Patents

基于生成对抗网络的零样本图像分类方法 Download PDF

Info

Publication number
CN113642621A
CN113642621A CN202110885066.3A CN202110885066A CN113642621A CN 113642621 A CN113642621 A CN 113642621A CN 202110885066 A CN202110885066 A CN 202110885066A CN 113642621 A CN113642621 A CN 113642621A
Authority
CN
China
Prior art keywords
network
visual image
attention
classifier
image features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110885066.3A
Other languages
English (en)
Other versions
CN113642621B (zh
Inventor
刘帅
黄刚
戴晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110885066.3A priority Critical patent/CN113642621B/zh
Priority claimed from CN202110885066.3A external-priority patent/CN113642621B/zh
Publication of CN113642621A publication Critical patent/CN113642621A/zh
Application granted granted Critical
Publication of CN113642621B publication Critical patent/CN113642621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的零样本图像分类方法,属于深度学习技术领域。包括获取图像数据集;对图像数据集进行预处理得到训练集和测试集;构建核心神经网络,并将训练集输入核心神经网络得到图片图像特征和视觉图像特征,核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络;计算核心神经网络的损失函数,并对核心神经网络的参数进行调节;图片图像特征和视觉图像特征共同训练得到分类器;将测试集输入分类器进行分类。相较于现有技术,本发明通过在生成对抗网络中加入重构网络,使生成对抗网络生成的视觉图像特征更加多样化;在生成对抗网络中引入注意力网络,以减少视觉图像特征中的干扰信息,提高了分类准确度。

Description

基于生成对抗网络的零样本图像分类方法
技术领域
本发明涉及一种基于生成对抗网络的零样本图像分类方法,属于深度学习领域。
背景技术
随着近几年深度学习的发展,深度学习在自然图像识别领域例如图像识别与分类、图像的文本描述以及图像分割等问题也都取得了突破性的进展,在对人脸、车牌号等特定的对象识别与分类方面表现的尤为突出。但算法的发展过程中也逐渐暴露出泛化能力差、所需训练数据大等缺点。而传统方法对图像分类需要大量的标签,训练数据过大则导致人工标注难度大,因此传统的方法无法对其进行分类。
Larochelle等于2008年提出了零样本学习这一概念。随着人们对基于机器学习的零样本学习产生的极大兴趣,零样本可以将已见类拓展到未见类而不需要额外的标签。零样本识别依赖于一个有标记的已见类,以及一个拥有语义信息描述的不可见类。传统的零样本方法主要是建立视觉空间和语义特征空间之间的映射函数,包括视觉空间到语义空间的映射,语义空间到视觉空间的映射,视觉空间和语义空间映射到一个共享的隐空间。但是由于视觉和语义之间的差异,相互映射会导致语义信息丢失。
近年来,由于深度网络的训练缺少注释样本,训练数据生成为了研究热点。生成性对抗网络特别有吸引力,因为它们允许生成真实而清晰的图像,例如,以对象类别为条件的图像。然而,它们还不能生成足够质量的图像来训练深度学习架构。
Xian等人提出了一种新的神经网络体系结构来直接生成神经网络特征,该特征可用于训练零镜头学习的判别分类器。结合强大的WGAN损失和使生成的特征具有区分性的分类损失,Xian等提出的GAN体系结构在很大程度上改进了原始GAN,并由于正则化而具有优于WGAN的优势。然而,原本的零样本图像分类方法的分类准确度较低,且生成对抗网络容易产生模式崩溃的问题,仅通过生成器和判别器之间相互对抗会使得最终生成的图像特征趋向单一化。
有鉴于此,确有必要提出一种基于生成对抗网络的零样本图像分类方法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于生成对抗网络的零样本图像分类方法,该方法可以使生成对抗网络生成的图像特征更加多样化,避免图像特征趋于单一化,同时,通过引入注意力网络可以减少图像特征中的干扰信息,提高分类准确度。
为实现上述目的,本发明提供了一种基于生成对抗网络的零样本图像分类方法,包括以下步骤:
步骤1、获取图像数据集;
步骤2、对所述图像数据集进行预处理得到训练集和测试集;
步骤3、构建核心神经网络,并将所述训练集输入所述核心神经网络得到图片图像特征和视觉图像特征,所述核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络;
步骤4、计算核心神经网络的损失函数,并对核心神经网络的参数进行调节;
步骤5、将图片图像特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤6、将测试集输入所述分类器,以实现对测试集进行分类。
作为本发明的进一步改进,所述训练集包括图片信息和语义信息,所述图片信息输入所述卷积神经网络后能够提取得到所述图片图像特征,所述语义信息输入所述生成对抗网络后能够得到所述视觉图像特征。
作为本发明的进一步改进,步骤3中的卷积神经网络包括1个通道数为64的7×7卷积层、1个3×3最大池化层以及多个残差卷积块,多个残差卷积块中包括多个通道数不同的卷积层。
作为本发明的进一步改进,所述生成对抗网络包括生成器网络和判别器网络,所述生成器网络用于生成视觉图像特征,所述判别器网络用于鉴别所述视觉图像特征,并得到一个评分,所述评分的大小用于区分所述视觉图像特征的真实度。
作为本发明的进一步改进,在所述生成器网络中加入所述重构网络,所述语义信息与所述生成器网络随机生成高斯特征结合,得到所述视觉图像特征,所述视觉图像特征中包括虚拟语义信息,所述重构网络将所述虚拟语义信息与所述语义信息进行对比并计算差异,以得到多样化的视觉图像特征。
作为本发明的进一步改进,所述视觉图像特征与所述图片图像特征输入所述注意力网络后用于定位关键信息,使所述视觉图像特征中的干扰信息少且带有注意力。
作为本发明的进一步改进,所述注意力网络具体为:所述视觉图像特征通过三个不同权重的卷积层,得到三个注意力特征,分别为第一注意力特征、第二注意力特征和第三注意力特征,对第一注意力特征进行转置操作后与第二注意力特征相乘,并输入Softmax函数得到特征图β,特征图β的表达式为:
Figure BDA0003193769760000031
其中,N为视觉图像特征的数量,si的计算公式如下:
Figure BDA0003193769760000041
其中,x为图片图像特征,
Figure BDA0003193769760000042
为视觉图像特征,Wf和Wg分别是第一注意力特征和第二注意力特征的权重矩阵;T为矩阵转置;
将特征图β与第三注意力特征相乘并输入1*1卷积层,得到带有注意力且干扰信息少的视觉图像特征,表达式为:
Figure BDA0003193769760000043
其中,Wv为第三注意力特征的权重。
作为本发明的进一步改进,步骤4中计算核心神经网络的损失函数包括计算所述生成对抗网络的损失函数和重构网络的损失函数,并通过两个损失函数的结果对所述核心神经网络中的参数进行调节,所述生成对抗网络的损失函数为:
Figure BDA0003193769760000044
Figure BDA0003193769760000045
其中,D表示鉴别器,G表示生成器,z为随机高斯噪声,c(y)为语义信息,
Figure BDA0003193769760000046
表示生成的图像特征,LWGAN表达式中前两项
Figure BDA0003193769760000047
Figure BDA0003193769760000048
的近似于代价距离,第三项
Figure BDA0003193769760000049
是梯度惩罚,λ为惩罚系数;
重构网络的损失函数为:
Figure BDA00031937697600000410
Figure BDA00031937697600000411
作为本发明的进一步改进,所述分类器网络为Softmax分类器,并通过分类器损失函数调整所述分类器的参数,所述分类器的表达式为:
Figure BDA00031937697600000412
其中,θ为模型参数。
作为本发明的进一步改进,所述分类器损失函数为:
Figure BDA0003193769760000051
Figure BDA0003193769760000052
其中,y是
Figure BDA0003193769760000053
的真实类别标签,P为真实类别标签y预测
Figure BDA0003193769760000054
的概率。
本发明的有益效果是:本发明通过在生成对抗网络中加入重构网络,使得生成对抗网络生成的视觉图像特征更加多样化,同时,还能使视觉图像特征与语义信息的相关性更加紧密;进一步的,在生成对抗网络中引入了注意力网络,以减少视觉图像特征中的干扰信息,提高了分类准确度。
附图说明
图1是本发明的整体流程图。
图2是本发明中生成对抗网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供了一种基于生成对抗网络的零样本图像分类方法,通过生成未知类的视觉图像特征使得零样本分类任务转换为传统的图像分类任务,同时,对生成对抗网络中的生成器网络做出改进,使其生成的视觉图像特征更加真实,从而进一步提高生成视觉图像特征的质量;然后再将图像特征经过注意力网络定位视觉图像特征中的关键信息,忽略其他干扰信息,以此来训练分类器,使得生成器能够生成干扰信息较少的视觉图像特征;本发明的分类方法较现有技术具有视觉图像特征质量高,图像分类更加准确的优点。
请参阅图1所示,本发明的基于生成对抗网络的零样本图像分类方法具体包括:
步骤1、获取图像数据集。
获取用于训练***的公用图像数据集;获取计算机视觉的通用数据集分别为AWA(带属性的动物数据集)、FLO(鲜花数据集)、CUB(鸟类细粒度数据集)、SUN(大规模场景数据集)。
步骤2、对所述图像数据集进行预处理得到训练集和测试集。
训练集和测试集之间没有交集,训练集和测试集中均包括图片信息和语义信息。
步骤3、构建核心神经网络,并将所述训练集输入所述核心神经网络得到图片图像特征和视觉图像特征,所述核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络。
具体的,将图片信息输入卷积神经网络后能够提取得到图片图像特征;语义信息输入生成对抗网络后能够得到视觉图像特征。
请参阅图2所示,训练集中的图片信息和语义信息c(y)∈C为已知项,将随机产生的高斯噪声
Figure BDA0003193769760000061
和语义信息c(y)∈C作为生成器网络的输入,通过学习一个条件生成器网络G:Z×C→X,输出一个视觉图像特征
Figure BDA0003193769760000062
随后重构网络将生成的视觉图像特征
Figure BDA0003193769760000063
重构回虚拟语义信息c’(y),并计算判断重构后的语义信息c’(y)与原本的语义信息c(y)之间的差异,并通过计算重构网络的损失函数,以调整生成器网络的参数,以此来限制生成器网络生成更符合属性的视觉图像特征。
将图片图像特征x和视觉图像特征
Figure BDA0003193769760000064
经过注意力网络过滤掉视觉图像特征的干扰信息后和语义信息c(y)一起输入判别器网络,判别器网络经过鉴定,并对图片图像特征和视觉图像特征进行评分,给图片图像特征高分,给视觉图像特征低分。
通过生成器网络G跟判别器网络D之间的互斥竞争,生成器网络G生成的视觉图像特征会越来越像真实图像(即视觉图像特征越来越接近与图片图像特征和语义信息),一旦生成器网络G能够生成非常真实的视觉图像特征
Figure BDA0003193769760000065
就可以利用语义信息c(y)∈Yu来生成任何测试集u的真实的视觉图像特征
Figure BDA0003193769760000066
实现对零样本图像的分类;最后,将生成的视觉图像特征送入到一个有区别的分类器中进行分类。
卷积神经网络Resnet101包括1个通道数为64的7×7卷积层、1个3×3最大池化层与多个残差卷积块,多个残差卷积块中包括多个通道数不同的卷积层,具体为:1个通道数为64的7×7卷积层,步数为2;1个3×3最大池化层,步数为2。
多个残差卷积块具体为:
A、3个重复的残差卷积块,每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。
B、4个重复的残差卷积块,每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。
C、23个重复的残差卷积块,每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。
D、3个重复的残差卷积块,每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。
生成对抗网络(GANs)由2个重要的网络构成:
生成器网络(Generator):通过机器生成数据(大部分情况下是图像),目的是“骗过”判别器网络。
判别器网络(Discriminator):判断一张图像是真实的还是机器生成的,目的是鉴别生成器网络生成的“假数据”。
生成器网络生成新的数据实例,相对的,判别器网络去评估他们的真实性;也就是说,判别器网络决定每一个它检验的数据实例是否属于真实的视觉图像特征。Discriminator通过真图和假图的数据,进行一个二分类神经网络训练。Generator根据一串随机数就可以捏造出一个"假图像"出来,用这些假图去欺骗Discriminator,Discriminator负责辨别这是真图还是假图,会给出一个评分。比如,Generator生成了一张图,在Discriminator这里评分很高,说明Generator生成能力是很成功的;若Discriminator给出的评分不高,可以有效区分真假图,则Generator的效果还不太好,需要调整参数。
生成对抗网络(GAN)最开始作为一种学习生成模型的方法提出,该模型从一个特定的领域捕获任意的数据分布(例如图像)。
GAN的损失函数为:
Figure BDA0003193769760000081
其中,G表示生成器网络,D表示判别器网络,x卷积网络提取的图片图像特征,
Figure BDA0003193769760000082
表示生成器网络生成的视觉图像特征。
简单的图像生成无法满足现实需求,通过将类别标签、句子描述输入到生成器网络和判别器网络中,GAN也被扩展为条件GAN;由于最初的GAN优化的Jenson-Shannon发散会产生的不稳定性,因此WGAN提出了利用Wasserstein距离能使它们有效逼近;但是WGAN仍然存在梯度消失和梯度***的问题,随后又提出通过梯度惩罚对判别器网络执行1-Lipschitz权重约束来缓解梯度消失以及梯度***的问题。
本发明中,将语义信息输入生成对抗网络得到视觉图像特征,具体的,生成器网络用于生成视觉图像特征,判别器网络用于鉴别视觉图像特征,并得到一个评分,评分的大小用于区分视觉图像特征的真实度。
由于生成对抗网络容易产生模式崩溃的问题,仅通过生成器网络和判别器网络之间相互对抗会使得最终生成的视觉图像特征趋向单一化。因此,为了使生成的视觉图像特征更加多样化,选择在生成对抗网络上增加一个重构网络,语义信息与生成器网络随机生成高斯特征结合,得到视觉图像特征,视觉图像特征中包括虚拟语义信息,重构网络将虚拟语义信息与语义信息进行对比并计算差异,以得到多样化的视觉图像特征,以此来限制生成器网络生成更符合属性的图像特征。
同时,在生成对抗网络中加入注意力网络,将视觉图像特征与图片图像特征输入注意力网络后用于定位关键信息,减少视觉图像特征中的干扰信息并且使视觉图像特征带有注意力。
具体为:首先,将视觉图像特征
Figure BDA0003193769760000091
通过三个不同权重的1*1卷积层,得到三个注意力特征,分别为第一注意力特征、第二注意力特征和第三注意力特征,将第一注意力特征进行转置操作后与第二注意力特征相乘,并输入Softmax函数得到了特征图β,特征图β的表达式为:
Figure BDA0003193769760000092
其中,N为视觉图像特征的数量,si的计算公式如下:
si=(Wfx)T*(Wgx);
其中,x为图片图像特征,
Figure BDA0003193769760000093
为视觉图像特征,Wf和Wg分别是第一注意力特征和第二注意力特征的权重矩阵,且Wf和Wg通过1*1卷积实现;T为矩阵转置。
最后,将得到的特征图β与第三注意力特征进行矩阵相乘并输入1*1卷积层,得到带有注意力且干扰信息少的视觉图像特征xa,表达式为:
Figure BDA0003193769760000094
其中,Wv为第三注意力特征的权重,将N个图像特征乘以特征图β后相加再与权重相乘得到视觉图像特征xa
步骤4、计算核心神经网络的损失函数,并对核心神经网络的参数进行调节。
具体的,计算核心神经网络的损失函数包括计算生成对抗网络的损失函数和重构网络的损失函数,并通过损失函数的结果对核心神经网络中的参数进行调节,其中,生成对抗网络的损失函数为:
Figure BDA0003193769760000101
Figure BDA0003193769760000102
其中,D表示鉴别器,G表示生成器,z为随机高斯噪声,c(y)为语义信息,
Figure BDA0003193769760000103
表示生成的图像特征,LWGAN表达式中前两项
Figure BDA0003193769760000104
Figure BDA0003193769760000105
近似于Wasserstein距离,(其中,Wasserstein距离为代价距离,由一个分布转变为另一个分布所需要的代价),第三项
Figure BDA0003193769760000106
Figure BDA0003193769760000107
是梯度惩罚,λ为惩罚系数;
重构网络的损失函数为:
Figure BDA0003193769760000108
Figure BDA0003193769760000109
步骤5、图片图像特征和视觉图像特征输入分类器网络共同训练得到分类器;
分类器网络为Softmax分类器,并通过分类器损失函数调整分类器的参数,分类器的表达式为:
Figure BDA00031937697600001010
其中,θ为模型参数。
分类器损失函数为:
Figure BDA00031937697600001011
Figure BDA00031937697600001012
其中,y是
Figure BDA00031937697600001013
的真实类别标签,P为真实类别标签y预测
Figure BDA00031937697600001014
的概率。
步骤6、将测试集输入所述分类器,以实现对测试集进行分类。
将测试集的图片信息输入卷积神经网络Resnet101,得到测试集的图片图像特征,并将测试集的图片图像特征输入分类器中,对测试集的数据进行分类,并确定分类器的分类精确度。
本发明基于计算机视觉分类任务中分类准确度不够高的问题,分析生成对抗网络的网络结构并对生成对抗网络进行改进,分析注意力机制的易用性与加权求和工作机制,提出了一种零样本图像分类方法,该方法融合了注意力机制与生成对抗网络,经过验证,该分类方法对于图像的分类表现优秀,具备较高的分类准确度,且具有泛化能力。
综上所述,本发明通过在生成对抗网络中加入重构网络,使得生成对抗网络生成的视觉图像特征更加多样化,同时,还能使视觉图像特征与语义信息的相关性更加紧密;进一步的,在生成对抗网络中引入了注意力网络,以减少视觉图像特征中的干扰信息,提高了分类准确度。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于生成对抗网络的零样本图像分类方法,其特征在于,包括以下步骤:
步骤1、获取图像数据集;
步骤2、对所述图像数据集进行预处理得到训练集和测试集;
步骤3、构建核心神经网络,并将所述训练集输入所述核心神经网络得到图片图像特征和视觉图像特征,所述核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络;
步骤4、计算核心神经网络的损失函数,并对核心神经网络的参数进行调节;
步骤5、将图片图像特征和视觉图像特征输入分类器网络,并进行共同训练得到分类器;
步骤6、将测试集输入所述分类器,以实现对测试集进行分类。
2.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法,其特征在于:所述训练集包括图片信息和语义信息,所述图片信息输入所述卷积神经网络后能够提取得到所述图片图像特征,所述语义信息输入所述生成对抗网络后能够得到所述视觉图像特征。
3.根据权利要求2所述的基于生成对抗网络的零样本图像分类方法,其特征在于:步骤3中的卷积神经网络包括1个通道数为64的7×7卷积层、1个3×3最大池化层以及多个残差卷积块,多个残差卷积块中包括多个通道数不同的卷积层。
4.根据权利要求2所述的基于生成对抗网络的零样本图像分类方法,其特征在于:所述生成对抗网络包括生成器网络和判别器网络,所述生成器网络用于生成视觉图像特征,所述判别器网络用于鉴别所述视觉图像特征,并得到一个评分,所述评分的大小用于区分所述视觉图像特征的真实度。
5.根据权利要求4所述的基于生成对抗网络的零样本图像分类方法,其特征在于:在所述生成器网络中加入所述重构网络,所述语义信息与所述生成器网络随机生成高斯特征结合,得到所述视觉图像特征,所述视觉图像特征中包括虚拟语义信息,所述重构网络将所述虚拟语义信息与所述语义信息进行对比并计算差异,以得到多样化的视觉图像特征。
6.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法,其特征在于:所述视觉图像特征与所述图片图像特征输入所述注意力网络后用于定位关键信息,使所述视觉图像特征中的干扰信息少且带有注意力。
7.根据权利要求6所述的基于生成对抗网络的零样本图像分类方法,其特征在于,所述注意力网络具体为:所述视觉图像特征通过三个不同权重的卷积层,得到三个注意力特征,分别为第一注意力特征、第二注意力特征和第三注意力特征,对第一注意力特征进行转置操作后与第二注意力特征相乘,并输入Softmax函数得到特征图β,特征图β的表达式为:
Figure FDA0003193769750000021
其中,N为视觉图像特征的数量,si的计算公式如下:
Figure FDA0003193769750000022
其中,x为图片图像特征,
Figure FDA0003193769750000023
为视觉图像特征,Wf和Wg分别是第一注意力特征和第二注意力特征的权重矩阵;T为矩阵转置;
将特征图β与第三注意力特征相乘并输入1*1卷积层,得到带有注意力且干扰信息少的视觉图像特征,表达式为:
Figure FDA0003193769750000024
其中,Wv为第三注意力特征的权重。
8.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法,其特征在于:步骤4中计算核心神经网络的损失函数包括计算所述生成对抗网络的损失函数和重构网络的损失函数,并通过两个损失函数的结果对所述核心神经网络中的参数进行调节,所述生成对抗网络的损失函数为:
Figure FDA0003193769750000031
Figure FDA0003193769750000032
其中,D表示鉴别器网络,G表示生成器网络,z为随机高斯噪声,c(y)为语义信息,
Figure FDA0003193769750000033
表示生成的图像特征,LWGAN表达式中前两项
Figure FDA0003193769750000034
的近似于代价距离,第三项
Figure FDA0003193769750000035
Figure FDA0003193769750000036
是梯度惩罚,λ为惩罚系数;
重构网络的损失函数为:
Figure FDA0003193769750000037
Figure FDA0003193769750000038
9.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法,其特征在于:所述分类器网络为Softmax分类器,并通过分类器损失函数调整所述分类器的参数,所述分类器的表达式为:
Figure FDA0003193769750000039
其中,θ为模型参数。
10.根据权利要求9所述的基于生成对抗网络的零样本图像分类方法,其特征在于:所述分类器损失函数为:
Figure FDA00031937697500000310
Figure FDA00031937697500000311
其中,y是
Figure FDA00031937697500000312
的真实类别标签,P为真实类别标签y预测
Figure FDA00031937697500000313
的概率。
CN202110885066.3A 2021-08-03 基于生成对抗网络的零样本图像分类方法 Active CN113642621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110885066.3A CN113642621B (zh) 2021-08-03 基于生成对抗网络的零样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110885066.3A CN113642621B (zh) 2021-08-03 基于生成对抗网络的零样本图像分类方法

Publications (2)

Publication Number Publication Date
CN113642621A true CN113642621A (zh) 2021-11-12
CN113642621B CN113642621B (zh) 2024-06-28

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299348A (zh) * 2022-02-21 2022-04-08 山东力聚机器人科技股份有限公司 一种基于修复自监督任务的图像分类方法及装置
CN115331012A (zh) * 2022-10-14 2022-11-11 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及***
CN115346068A (zh) * 2022-08-02 2022-11-15 哈尔滨市科佳通用机电股份有限公司 一种铁路货运列车螺栓丢失故障图像自动生成方法
CN115860113A (zh) * 2023-03-03 2023-03-28 深圳精智达技术股份有限公司 一种自对抗神经网络模型的训练方法及相关装置
CN116703895A (zh) * 2023-08-02 2023-09-05 杭州灵西机器人智能科技有限公司 基于生成对抗网络的小样本3d视觉检测方法及其***

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110533606A (zh) * 2019-07-30 2019-12-03 中国民航大学 基于生成式对抗网络的安检x光违禁品图像数据增强方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及***
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
US20200372351A1 (en) * 2019-05-23 2020-11-26 Htc Corporation Method for training generative adversarial network (gan), method for generating images by using gan, and computer readable storage medium
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112384948A (zh) * 2018-06-12 2021-02-19 通腾全球信息公司 用于图像分割的生成对抗网络
KR20210030063A (ko) * 2019-09-09 2021-03-17 서강대학교산학협력단 준지도 학습을 기반으로 한 이미지 분류를 위한 적대적 이미지 생성 모델 구축 시스템 및 방법
CN112766386A (zh) * 2021-01-25 2021-05-07 大连理工大学 一种基于多输入多输出融合网络的广义零样本学习方法
AU2021101336A4 (en) * 2021-03-15 2021-05-13 Shandong University A Classification System Of Modulation Signal Time-Frequency Image Based On Generative Adversarial Network And Its Operation Method
WO2021114832A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112384948A (zh) * 2018-06-12 2021-02-19 通腾全球信息公司 用于图像分割的生成对抗网络
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及***
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
US20200372351A1 (en) * 2019-05-23 2020-11-26 Htc Corporation Method for training generative adversarial network (gan), method for generating images by using gan, and computer readable storage medium
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法
CN110427813A (zh) * 2019-06-24 2019-11-08 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110533606A (zh) * 2019-07-30 2019-12-03 中国民航大学 基于生成式对抗网络的安检x光违禁品图像数据增强方法
KR20210030063A (ko) * 2019-09-09 2021-03-17 서강대학교산학협력단 준지도 학습을 기반으로 한 이미지 분류를 위한 적대적 이미지 생성 모델 구축 시스템 및 방법
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及***
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
WO2021114832A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112766386A (zh) * 2021-01-25 2021-05-07 大连理工大学 一种基于多输入多输出融合网络的广义零样本学习方法
AU2021101336A4 (en) * 2021-03-15 2021-05-13 Shandong University A Classification System Of Modulation Signal Time-Frequency Image Based On Generative Adversarial Network And Its Operation Method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯柯冰;程晓荣;: "基于生成对抗网络的ACGAN模型", 信息技术与信息化, no. 05, pages 201 - 204 *
刘帅, 黄刚, 戴晓峰, 颜金花;: "一种融合生成对抗网络的零样本图像分类方法", 计算机技术与发展, vol. 32, no. 7, pages 87 - 92 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299348A (zh) * 2022-02-21 2022-04-08 山东力聚机器人科技股份有限公司 一种基于修复自监督任务的图像分类方法及装置
CN115346068A (zh) * 2022-08-02 2022-11-15 哈尔滨市科佳通用机电股份有限公司 一种铁路货运列车螺栓丢失故障图像自动生成方法
CN115331012A (zh) * 2022-10-14 2022-11-11 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及***
CN115860113A (zh) * 2023-03-03 2023-03-28 深圳精智达技术股份有限公司 一种自对抗神经网络模型的训练方法及相关装置
CN115860113B (zh) * 2023-03-03 2023-07-25 深圳精智达技术股份有限公司 一种自对抗神经网络模型的训练方法及相关装置
CN116703895A (zh) * 2023-08-02 2023-09-05 杭州灵西机器人智能科技有限公司 基于生成对抗网络的小样本3d视觉检测方法及其***
CN116703895B (zh) * 2023-08-02 2023-11-21 杭州灵西机器人智能科技有限公司 基于生成对抗网络的小样本3d视觉检测方法及其***

Similar Documents

Publication Publication Date Title
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN111860171B (zh) 一种大规模遥感图像中不规则形状目标的检测方法及***
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN112580782B (zh) 基于通道增强的双注意力生成对抗网络及图像生成方法
Ashrapov Tabular GANs for uneven distribution
CN111242841A (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN111339935B (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN112785526B (zh) 一种用于图形处理的三维点云修复方法
CN112905828B (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN111340034A (zh) 一种针对自然场景的文本检测与识别方法及***
Zhu et al. Utilizing GANs for fraud detection: model training with synthetic transaction data
CN113537027A (zh) 基于面部划分的人脸深度伪造检测方法及***
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN115222998A (zh) 一种图像分类方法
CN116958637A (zh) 图像检测模型的训练方法、装置、设备及存储介质
Hu et al. Deep learning for distinguishing computer generated images and natural images: A survey
CN113420833A (zh) 一种基于问题语义映射的视觉问答方法及装置
Jadhav et al. High fidelity face generation with style generative adversarial networks
CN115457374A (zh) 基于推理模式评估深伪图像检测模型泛化性方法及装置
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
CN113658285B (zh) 一种人脸照片到艺术素描的生成方法
CN113642621B (zh) 基于生成对抗网络的零样本图像分类方法
CN113642621A (zh) 基于生成对抗网络的零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant