CN111476294B - 一种基于生成对抗网络的零样本图像识别方法及*** - Google Patents
一种基于生成对抗网络的零样本图像识别方法及*** Download PDFInfo
- Publication number
- CN111476294B CN111476294B CN202010263452.4A CN202010263452A CN111476294B CN 111476294 B CN111476294 B CN 111476294B CN 202010263452 A CN202010263452 A CN 202010263452A CN 111476294 B CN111476294 B CN 111476294B
- Authority
- CN
- China
- Prior art keywords
- semantic
- visual
- discriminator
- features
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000007 visual effect Effects 0.000 claims abstract description 204
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000012360 testing method Methods 0.000 claims abstract description 36
- 238000009826 distribution Methods 0.000 claims description 37
- 238000010276 construction Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 230000003042 antagnostic effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000006870 function Effects 0.000 description 68
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000008485 antagonism Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络的零样本图像识别方法及***。该方法包括:获取带标注信息的训练图像样本和不带标注信息的测试图像样本;构建生成对抗网络模型;生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;构建包括循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数的多目标损失函数;将训练图像样本作为生成对抗网络模型的输入,基于多目标损失函数对生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;将测试图像样本输入至训练好的生成对抗网络模型中,得到识别结果。本发明能识别未带标注信息的草图,且零样本识别的精度高。
Description
技术领域
本发明涉及基于弱/半监督的图像识别领域,特别是涉及一种基于生成对抗网络的零样本图像识别方法及***。
背景技术
零样本学习(Zero-shot Learning,ZSL)的概念首先是由H.Larochelle等人在2008年提出,主要用于解决在有标签的训练样本不足以涵盖所有对象类的情况下,如何对未知新目标进行正确分类识别的问题。如果按着传统监督学习方法在训练集上学习一个分类器应用到测试样本集上,由于两个域的样本分布不相同导致分类效果不佳。该图像识别问题称为零样本识别。
零样本识别只需要已知类别的标签样本,就能预测未知类别。其主要思路是引入类别语义信息作为中间层特征,将视觉特征与语义特征联系起来。因此,在特征层面,实现零样本识别的关键问题是:1)寻找能够充分表达图像视觉信息的视觉特征和能够充分代表语义特征的语义信息;2)如何将视觉特征和类别语义信息联系起来。
针对关键问题1),找到能够充分表达图像视觉信息的视觉特征是零样本识别的挑战之一。随着深度学习的兴起,学者们应用深层卷积神经网络提取图像的识别特征。零样本图像识别不仅需要图像的视觉特征,而且需要能够表示图像类别语义的语义特征来联系已知类和未知类。当前使用最广泛的语义特征有属性特征和文本特征。由于属性特征是人为标注的,准确性欠佳。近年来,随着自然语言处理技术的发展,利用文本描述特征代替属性特征的研究得到广泛关注。因为文本描述特征可以从语料库中直接提取,每一个类别就对应着在文本描述空间中的一个向量。与属性特征相比,文本描述特征可以通过自然语言处理技术从无标签的文本语料库中获得其中任意单词的文本矢量,因此具有更好的扩展性。常用的文本矢量提取方法有Word2Vec。
现有的语义特征空间可分为三类:(1)基于属性的语义特征空间。(2)基于文本的语义特征空间。(3)公共语义特征空间。选定语义特征空间后,如何建立视觉特征和语义特征间的映射关系是零样本识别的第二个关键问题。
针对关键问题2),在给定的语义空间中提取到已知类和未知类的语义特征后,各类别间的语义相关性就可以由语义特征之间的相似性求出。然而,样本图像是由视觉空间中的视觉特征表示的,由于语义鸿沟的存在,它们不能同语义空间的语义特征直接建立联系。现有方法大多通过已知类别图片的视觉特征和相对应标签的语义特征,学习从视觉空间映射到语义空间的映射函数。然后,通过该映射函数,将测试图像的视觉特征映射到语义空间,得到预测的语义特征。最后找出与它距离最近的未知类的语义特征来确定其所属类别。
在零样本图像识别中,由于已知类和未知类不相交,将从训练样本集学习到的模型直接应用于测试集会导致测试集样本在语义空间的映射与真实类别语义存在较大的偏差,这种现象称为域偏移。最近,为了解决零样本学习中的域偏移问题,很多方法被提出,如数据增强、自训练以及枢纽度矫正。
零样本识别近些年受到中外学者的广泛关注,并且零样本识别的有关应用算法已经开始应用于实际中。以前的零样本学习方法主要在传统的零样本学习设置中对目标进行识别,即测试图像仅仅被限制在目标类中,然而在实际的场景中,测试图像不仅来自于目标类,还可能来自于源类。这种情况下,来自源类和目标类的数据都应该被考虑到,于是近些年引入了广义零样本设置,然而基于广义零样本学习的零样本识别精度远低于基于传统零样本学习的识别精度。因此,目前的广义零样本识别方法存在识别精度低的问题。
发明内容
基于此,有必要提供一种基于生成对抗网络的零样本图像识别方法及***,能够对来自于目标类和源类的测试图像进行高精度识别。
为实现上述目的,本发明提供了如下方案:
一种基于生成对抗网络的零样本图像识别方法,包括:
获取训练图像样本和测试图像样本;所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像;
构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别;
构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数;
将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;
将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果。
本发明还提供了一种基于生成对抗网络的零样本图像识别***,包括:
样本获取模块,用于获取训练图像样本和测试图像样本;所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像;
网络模型构建模块,用于构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别;
损失函数构建模块,用于构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数;
训练模块,用于将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;
测试识别模块,用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于生成对抗网络的零样本图像识别方法及***,所述方法构建包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器的生成对抗网络模型;构建包括循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数的多目标损失函数;将训练图像样本作为生成对抗网络模型的输入,基于多目标损失函数对生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;将测试图像样本输入至训练好的生成对抗网络模型中,得到识别结果。本发明可以识别未带标注信息的草图,且能够提高零样本识别的精度,提升模型的泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于生成对抗网络的零样本图像识别方法的流程图;
图2为本发明实施例中语义特征生成器G1的网络结构图;
图3为本发明实施例中视觉特征生成器G2的网络结构图;
图4为本发明实施例中语义判别器D1的网络结构图;
图5为本发明实施例中视觉判别器D2的网络结构图;
图6为本发明实施例训练好的生成对抗网络模型的结构图;
图7为本发明实施例一种基于生成对抗网络的零样本图像识别***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了提高广义零样本的识别精度,需要解决以下两个问题:一方面,需要对齐的图像对或者需要低效率的特征融合来将视觉信息映射到语义空间;另一方面,用自编码器从***中提取语义信息时会存在冗余的噪声文本,影响识别效果。
图1为本发明实施例一种基于生成对抗网络的零样本图像识别方法的流程图。参见图1,本实施例的基于生成对抗网络的零样本图像识别方法,包括:
步骤101:获取训练图像样本和测试图像样本。
所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像。
步骤102:构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器。
所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别。
在执行该步骤之前,还需要:1)将***中的文本输入至分层模型中,得到文本有用信息,并将所述文本有用信息输入至自编码器中,得到真实语义特征。2)将所述训练图像样本输入基于注意力机制的CNN模型中,得到真实视觉特征。
步骤103:构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数。
步骤104:将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型。
步骤105:将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果。
其中,步骤101为本实施例的训练初期,识别模型的训练初期是在深度学习的Tensorflow框架下执行完成,获取训练图像样本和测试图像样本的具体流程如下:
本实施例中的训练图像样本和测试图像样本可以选自Sketchy和TU-Berlin。Sketchy和TU-Berlin是两个常用和流行的草图数据集。
Sketchy数据集是一个很大的草图集合。数据集由125个不同类别的从图组成,每个类别有100张草图。这12500张草图中出现物体的草图是通过群组寻源收集的,结果是75471张草图。该数据集还包含特定图像和草图之间的细粒度对应关系(对齐),以及用于基于深度学习的方法的各种数据扩充。随后通过添加60502张照片扩展了数据集,总共生成73002张草图。我们随机抽取25类草图作为零样本识别的不可见测试集(不使用其标注信息),其余100类数据用于训练(使用标注信息)。
TU-Berlin数据集(扩展)包含250个类别,随后扩展了20000张草图,自然图像对应于草图类,总大小为204489。随机选取30类草图作为测试集(不使用其标注信息);其余220个类用于训练(使用标注信息)。
其中,步骤102为本实施例的训练中期,即构建生成对抗网络模型的结构,所述生成对抗网络模型包括语义特征生成器G1、视觉特征生成器G2、语义判别器D1和视觉判别器D2。具体构建过程如下:
1)生成器网络的构建:
构建生成器网络,所述生成器网络有两个:语义特征生成器G1和视觉特征生成器G2。如图2所示,语义特征生成器G1包括2组卷积模块和2组全连接模块。其中卷积模块由一个卷积层(Conv)、一个最大池化层(Max Pooling)、一个归一化层(normalization)组成;全连接模块由一个全连接层(FC)、一个Leaky ReLU组成。如图3所示,视觉特征生成器G2包括两组全连接模块、3层4096维的全连接层(FC 4096)、一个重采样层(Reshape)、5组上采样模块。其中全连接模块由一个全连接层、一个Leaky ReLU组成;上采样模块由两个上采样层(Upconv)、两个Leaky ReLU组成,其中上采样层和Leaky ReLU交替连接。G2输入来自于G1输出的语义特征。
具体地,语义特征生成器G1包括2组卷积模块、2组全连接模块。将图像输入到生成器之后,首先通过卷积模块,用卷积核为11、步长为4的卷积层进行卷积处理,经过池化层为3、步长为2的最大池化减少卷积层参数误差留下的均方误差偏移,在随后的归一化中对输入数据的维度进行归一化;然后经过卷积核为5、步长为1的卷积层进行卷积处理,经过池化层为3、步长为2的最大池化减少卷积层参数误差留下的均方误差偏移,在随后的归一化中对输入数据的维度进行归一化,随后输入到1024的全连接模块;最后经过两个同样大小的全连接模块将输入的视觉特征生成语义特征。
具体地,视觉特征生成器G2包括两组全连接模块、3层4096维的全连接层、一个重采样层、5组上采样模块。将语义特征生成器生成的语义特征输入到视觉特征生成器中,首先经过两个1024的全连接模块;然后三个4096维全连接层对输入数据提取4096维的特征向量;接着经过一个重采样层,对输入特征向量的维度进行重采样为4×4×256;最后经过5个卷积核为4、步长为2的上采样模块,对特征向量进行上采样,每上采样一次就用一次激活函数防止梯度消失;输出特征向量。
2)判别器网络的构建:
构建判别器网络,所述的判别器网络有两个:语义判别器D1和视觉判别器D2。D1包括两个分支:一个分支用于0/1(真假)二分类,另一个分支用于输入标签类别的分类。第一个分支的网络结构包含一组全连接模块和一个二路的全连接层。全连接模块由一个全连接层、一个Leaky ReLU组成;另一个分支的网络结构包含一组全连接模块和一个n路全连接层。全连接模块由一个全连接层和一个Leaky ReLU组成。D2包括一组全连接模块和一个全连接层,其中全连接模块由一个全连接层和一个Leaky ReLU组成。两个判别器D1,D2最后一层的全连接层在整个卷积神经网络中用作分类器。
如图4所示,具体地,语义判别器D1包括两个分支,一个分支用于0/1二分类;另一个分支用于类标签的分类。其接收来自于自编码器提取的真实语义特征和语义特征生成器G1生成的伪语义特征,首先在二分类分支中经过一组1024的全连接模块提取特征,然后用激活函数来稳定梯度,最后经过一个全连接层进行0/1二分类,判别输入特征的真假;在另一个n路分类分支中用最后的全连接层对输入数据进行n路分类。
如图5所示,具体地,视觉判别器D2用来判别使用视觉特征生成器G2生成的伪视觉特征和CNN提取的真实视觉特征之间特征的真假。将生成的伪视觉特征输入到判别网络D2中,首先用1024的全连接层进行特征提取,然后经过激活函数防止梯度消失,最后用全连接层对数据进行二分类,判断输入特征的真假。
其中,步骤103中构建多目标损失函数,损失函数构建的目的是:根据损失函数值的收敛情况,能够更好的对零样本识别网络模型中对应的参数进行更新优化,最终获取最优化的生成对抗网络模型,对真实的数据集中待识别的图像完成更加准确的识别。具体的:
上述的对抗损失函数分为两个部分,其一是对合成语义特征进行评估的CTGAN的对抗损失,CTGAN的对抗损失可以对梯度惩罚进行相应的约束,以提高合成特征的质量;其二是对合成的伪视觉特征进行评估的普通GAN的对抗损失,普通的对抗机制可以很好的缩小域差异。
循环一致性损失函数可以很好的证明基于注意力机制的CNN提取的视觉特征和生成的伪视觉特征之间的匹配程度。
分类器附加在语义判别器D1上,因此分类器可以对类标签数据进行有效地分类,以满足零样本图像识别的任务。所述生成对抗网络模型中语义判别器D1的对抗损失函数具体如下:
其中,x表示真实视觉特征,a表示真实语义特征,G1(x)表示输入视觉特征为x的语义生成器,D1(G1(x))表示输入G1(x)的语义判别器,D1(a)表示输入语义特征为a的语义判别器,Pf表示真实视觉特征的先验分布,Pr表示真实语义特征的先验分布,表示特征之间的线性插值,Pr,f表示服从真实视觉特征和真实语义特征的先验分布;第一项表示伪特征分布的期望;第二项表示真实特征分布的期望;第一项与第二项之差表示特征分布之间的Wasserstein距离;表示执行Lipschitz约束的梯度惩罚,λ2CT|x',x”表示增加的约束梯度惩罚的一致性或连续项;λ1表示梯度惩罚的权重;λ2表示一致性或连续项的权重;其中,
x′和x″均表示真实视觉特征附近的扰动数据(真实样本附近随意抽取的扰动数据);c为一个固定的常数;D(x')表示输入为x'的语义判别器,D(x”)表示输入为x”的语义判别器,||D(x')-D(x”)||表示两个判别器值之间的距离,||x'-x”||表示两个扰动数据特征之间的距离;consistency term是用来近似梯度并限制其小于c。
构建视觉判别器的对抗损失函数
其中,表示伪语义特征,D2(x)表示输入视觉特征x的视觉判别器,表示输入伪语义特征的视觉生成器,表示输入的视觉特征生成器的视觉判别器;通过损失函数不断优化网络,使得生成的伪视觉特征和真实的视觉特征x越来越接近。
对抗损失的作用是通过对真实特征分布和生成特征分布进行整体分析,给生成器网络输出反馈信号,进行网络的参数调整,使其最优化。
构建真实视觉特征与伪视觉特征的循环一致性损失函数
E[||G2(G1(x))-x||1]表示用循环一致性度量两个视觉特征的分布期望;表示用循环一致性度量两个语义特征的分布期望;循环一致性损失Lcyc用以优化网络参数,使得真实视觉特征x和伪语义特征能更好地匹配。
构建语义判别器的分类损失函数
Lcls=-E[logP(b|G1(a);θ)];
其中,P(c|G1(a);θ)表示类标签的类条件概率,G1(a)表示输入语义特征为a的语义生成器,θ为分类网络的参数,b是a的类标签。通过最小化生成特征的分类损失,提高类标签的分类精度。
其中,步骤104对上述构造的生成对抗网络模型进行迭代训练,更新和优化网络模型的参数,得到训练好的生成对抗网络模型。具体的,将所述训练图像样本作为所述语义特征生成器的输入,根据所述多目标损失函数,采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练,使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化,得到训练好的生成对抗网络模型。图6为本发明实施例训练好的生成对抗网络模型的结构图。具体迭代训练步骤如下:
为了在训练过程中更好地度量草图和真实图像之间的相似性,引入cycle-GAN循环一致性损失约束。因为cycle-GAN由两个生成器和两个判别器组成。语义特征和视觉特征是作为两个不同域的数据信息,语义特征生成器G1将真实视觉特征x生成伪语义特征视觉特征生成器G2将得到的伪语义特征反向生成伪视觉特征然后用cycleloss度量真实视觉特征和伪视觉特征的相似性。
将***中的文本输入到分层模型中得到文本的有用信息,然后再将其输入到自编码器,提取到***文本的真实语义信息。将该真实语义信息a作为判别器D1的输入,与G1生成的伪语义特征进行对抗学习。
采用WGAN的变体CTGAN作为判别器D1的网络框架,以提高零样本图像识别的精度。因为WGAN的梯度惩罚不合理,如果真实样本分布和生成的伪样本分布距离较远,此时梯度惩罚往往无法检测到真实样本附近区域的连续性,也即判别器将破坏Lipschitz连续性。CTGAN在WGAN的基础上加入了一个consistency term对真实样本分布的梯度进行约束,从而增强了数据样本分布附近的Lipschitz连续性。
根据所述***文本和草图的特征信息构建判别器D1的对抗损失函数LCTGAN、判别器D2的对抗损失函数Ladv;根据草图的真实视觉特征和伪视觉特征构造循环一致性损失函数Lcyc,再构建一个用于对标签类别分类的损失函数Lcls。
具体更新优化过程为:固定生成器网络参数,对所述判别器网络进行训练,得到训练后的判别器网络模型;再固定所述训练后的判别器网络模型参数,对所述生成器网络进行反向传播训练,得到优化后生成器网络模型,如此迭代循环,最后得到最优的生成对抗网络模型。
本实施例中的基于生成对抗网络的零样本图像识别方法具有以下优点:将语义对齐的循环一致损失约束引入生成模型,以解决现实场景中训练图像和测试图像之间无法利用公共语义知识的问题,并对视觉特征和语义特征之间的相关性进行度量,此外在判别器的输出部分添加一个与判别器并行的分类网络,对类标签进行正确的分类;使用WGAN的变体CTGAN对真实特征和合成特征进行对抗学习,在WGAN的基础上加了一个consistencyterm,以此来约束真实特征分布的梯度;零样本学习在基于特征的整个属性集合进行识别时,存在训练成本和训练复杂度比较大的问题,拟提出使用基于***文本和分层结构的自编码器提取方案,对属性的子集进行特征提取,然后用分层结构进行划分,对有用的信息进行筛选,提取来自文本中重要特征信息,从而减少训练成本和训练复杂度,以此证明零样本学习对一个属性子集的识别比整个属性集合的识别更有效。
本实施例中的上述方法采用生成对抗网络实现零样本的识别,可以识别未带标注信息的草图,且能够提高零样本识别的精度,提升模型的泛化能力。
图7为本发明实施例一种基于生成对抗网络的零样本图像识别***的结构示意图。参见图7,所述基于生成对抗网络的零样本图像识别***,包括:
样本获取模块201,用于获取训练图像样本和测试图像样本;所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像。
网络模型构建模块202,用于构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别。
损失函数构建模块203,用于构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数。
训练模块204,用于将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型。
测试识别模块205,用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果。
作为一种可选的实施方式,所述基于生成对抗网络的零样本图像识别***,还还包括:
真实语义特征获取模块,用于将***中的文本输入至分层模型中,得到文本有用信息,并将所述文本有用信息输入至自编码器中,得到真实语义特征。
真实视觉特征获取模块,用于将所述训练图像样本输入基于注意力机制的CNN模型中,得到真实视觉特征。
作为一种可选的实施方式,所述网络模型构建模块202,具体包括:
第一生成器构建单元,用于构建语义特征生成器;所述语义特征生成器包括两组卷积模块和两组全连接模块;所述卷积模块包括依次连接的卷积层、最大池化层和归一化层;所述全连接模块包括全连接层和Leaky ReLU层。
第二生成器构建单元,用于构建视觉特征生成器;所述视觉特征生成器包括依次连接的两组全连接模块、三层4096维的全连接层、一个重采样层和五组上采样模块;所述上采样模块包括两个上采样层和两个Leaky ReLU层;所述上采样模块中的上采样层和LeakyReLU层交替连接。
第一判别器构建单元,用于构建语义判别器;所述语义判别器包括一组全连接模块、一个二路的全连接层、一个n路的全连接层、二分类器和输入标签分类器。
第二判别器构建单元,用于构建视觉判别器;所述视觉判别器包括一组全连接模块、一个全连接层和二分类器。
作为一种可选的实施方式,所述损失函数构建模块203,具体包括:
第一损失函数构建单元,用于构建语义判别器的对抗损失函数
其中,x表示真实视觉特征,a表示真实语义特征,G1(x)表示输入视觉特征为x的语义生成器,D1(G1(x))表示输入G1(x)的语义判别器,D1(a)表示输入语义特征为a的语义判别器,Pf表示真实视觉特征的先验分布,Pr表示真实语义特征的先验分布,表示特征之间的线性插值,Pr,f表示服从真实视觉特征和真实语义特征的先验分布;表示伪特征分布的期望;表示真实特征分布的期望;表示执行Lipschitz约束的梯度惩罚,λ2CT|x',x”表示增加的约束梯度惩罚的一致性或连续项;λ1表示梯度惩罚的权重;λ2表示一致性或连续项的权重;其中,
x′和x″均表示真实视觉特征附近的扰动数据;c为一个固定的常数;D(x')表示输入为x'的语义判别器,D(x”)表示输入为x”的语义判别器,||D(x')-D(x”)||表示两个判别器值之间的距离,||x’-x”||表示两个扰动数据特征之间的距离。
第二损失函数构建单元,用于构建视觉判别器的对抗损失函数
第三损失函数构建单元,用于构建真实视觉特征与伪视觉特征的循环一致性损失函数
第四损失函数构建单元,用于构建语义判别器的分类损失函数
Lcls=-E[logP(b|G1(a);θ)];
其中,P(c|G1(a);θ)表示类标签的类条件概率,G1(a)表示输入语义特征为a的语义生成器,θ为分类网络的参数,b是a的类标签。
作为一种可选的实施方式,所述训练模块204,具体包括:
训练单元,用于将所述训练图像样本作为所述语义特征生成器的输入,根据所述多目标损失函数,采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练,使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化,得到训练好的生成对抗网络模型。
本实施例中的基于生成对抗网络的零样本图像识别***,采用生成对抗网络实现零样本的识别,可以识别未带标注信息的草图,且能够提高零样本识别的精度,提升模型的泛化能力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于生成对抗网络的零样本图像识别方法,其特征在于,包括:
获取训练图像样本和测试图像样本;所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像;
构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别;
构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数;
将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;
将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果;
所述构建多目标损失函数,具体包括:
构建语义判别器的对抗损失函数
其中,x表示真实视觉特征,a表示真实语义特征,G1(x)表示输入视觉特征为x的语义生成器,D1(G1(x))表示输入G1(x)的语义判别器,D1(a)表示输入语义特征为a的语义判别器,Pf表示真实视觉特征的先验分布,Pr表示真实语义特征的先验分布,表示特征之间的线性插值,Pr,f表示服从真实视觉特征和真实语义特征的先验分布;
表示伪特征分布的期望;表示真实特征分布的期望;表示执行Lipschitz约束的梯度惩罚,λ2CT|x',x”表示增加的约束梯度惩罚的一致性或连续项;λ1表示梯度惩罚的权重;λ2表示一致性或连续项的权重;其中,
x′和x″均表示真实视觉特征附近的扰动数据;c为一个固定的常数;D(x')表示输入为x'的语义判别器,D(x”)表示输入为x”的语义判别器,||D(x')-D(x”)||表示两个判别器值之间的距离,||x'-x”||表示两个扰动数据特征之间的距离;
构建视觉判别器的对抗损失函数
构建真实视觉特征与伪视觉特征的循环一致性损失函数
构建语义判别器的分类损失函数
Lcls=-Ε[logP(b|G1(a);θ)];
其中,P(b|G1(a);θ)表示类标签的类条件概率,G1(a)表示输入语义特征为a的语义生成器,θ为分类网络的参数,b是a的类标签。
2.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法,其特征在于,在所述构建生成对抗网络模型之前还包括:
将***中的文本输入至分层模型中,得到文本有用信息,并将所述文本有用信息输入至自编码器中,得到真实语义特征;
将所述训练图像样本输入基于注意力机制的CNN模型中,得到真实视觉特征。
3.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法,其特征在于,所述构建生成对抗网络模型,具体包括:
构建语义特征生成器;所述语义特征生成器包括两组卷积模块和两组全连接模块;所述卷积模块包括依次连接的卷积层、最大池化层和归一化层;所述全连接模块包括全连接层和Leaky ReLU层;
构建视觉特征生成器;所述视觉特征生成器包括依次连接的两组全连接模块、三层4096维的全连接层、一个重采样层和五组上采样模块;所述上采样模块包括两个上采样层和两个Leaky ReLU层;所述上采样模块中的上采样层和Leaky ReLU层交替连接;
构建语义判别器;所述语义判别器包括一组全连接模块、一个二路的全连接层、一个n路的全连接层、二分类器和输入标签分类器;
构建视觉判别器;所述视觉判别器包括一组全连接模块、一个全连接层和二分类器。
4.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法,其特征在于,所述将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型,具体包括:
将所述训练图像样本作为所述语义特征生成器的输入,根据所述多目标损失函数,采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练,使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化,得到训练好的生成对抗网络模型。
5.一种基于生成对抗网络的零样本图像识别***,其特征在于,包括:
样本获取模块,用于获取训练图像样本和测试图像样本;所述训练图像样本为带标注信息的样本图像,所述测试图像样本为不带标注信息的样本图像;
网络模型构建模块,用于构建生成对抗网络模型;所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器;所述语义特征生成器用于根据真实视觉特征生成伪语义特征;所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征;所述语义判别器用于对真实语义特征和所述伪语义特征进行判别;所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别;
损失函数构建模块,用于构建多目标损失函数;所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数;
训练模块,用于将所述训练图像样本作为所述生成对抗网络模型的输入,基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练,得到训练好的生成对抗网络模型;
测试识别模块,用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中,得到识别结果;
所述损失函数构建模块,具体包括:
第一损失函数构建单元,用于构建语义判别器的对抗损失函数
其中,x表示真实视觉特征,a表示真实语义特征,G1(x)表示输入视觉特征为x的语义生成器,D1(G1(x))表示输入G1(x)的语义判别器,D1(a)表示输入语义特征为a的语义判别器,Pf表示真实视觉特征的先验分布,Pr表示真实语义特征的先验分布,表示特征之间的线性插值,Pr,f表示服从真实视觉特征和真实语义特征的先验分布;表示伪特征分布的期望;表示真实特征分布的期望;表示执行Lipschitz约束的梯度惩罚,λ2CT|x',x”表示增加的约束梯度惩罚的一致性或连续项;λ1表示梯度惩罚的权重;λ2表示一致性或连续项的权重;其中,
x′和x″均表示真实视觉特征附近的扰动数据;c为一个固定的常数;D(x')表示输入为x'的语义判别器,D(x”)表示输入为x”的语义判别器,||D(x')-D(x”)||表示两个判别器值之间的距离,||x'-x”||表示两个扰动数据特征之间的距离;
第二损失函数构建单元,用于构建视觉判别器的对抗损失函数
第三损失函数构建单元,用于构建真实视觉特征与伪视觉特征的循环一致性损失函数
第四损失函数构建单元,用于构建语义判别器的分类损失函数
Lcls=-Ε[log P(b|G1(a);θ)];
其中,P(b|G1(a);θ)表示类标签的类条件概率,G1(a)表示输入语义特征为a的语义生成器,θ为分类网络的参数,b是a的类标签。
6.根据权利要求5所述的一种基于生成对抗网络的零样本图像识别***,其特征在于,还包括:
真实语义特征获取模块,用于将***中的文本输入至分层模型中,得到文本有用信息,并将所述文本有用信息输入至自编码器中,得到真实语义特征;
真实视觉特征获取模块,用于将所述训练图像样本输入基于注意力机制的CNN模型中,得到真实视觉特征。
7.根据权利要求5所述的一种基于生成对抗网络的零样本图像识别***,其特征在于,所述网络模型构建模块,具体包括:
第一生成器构建单元,用于构建语义特征生成器;所述语义特征生成器包括两组卷积模块和两组全连接模块;所述卷积模块包括依次连接的卷积层、最大池化层和归一化层;所述全连接模块包括全连接层和Leaky ReLU层;
第二生成器构建单元,用于构建视觉特征生成器;所述视觉特征生成器包括依次连接的两组全连接模块、三层4096维的全连接层、一个重采样层和五组上采样模块;所述上采样模块包括两个上采样层和两个Leaky ReLU层;所述上采样模块中的上采样层和Leaky ReLU层交替连接;
第一判别器构建单元,用于构建语义判别器;所述语义判别器包括一组全连接模块、一个二路的全连接层、一个n路的全连接层、二分类器和输入标签分类器;
第二判别器构建单元,用于构建视觉判别器;所述视觉判别器包括一组全连接模块、一个全连接层和二分类器。
8.根据权利要求5所述的一种基于生成对抗网络的零样本图像识别***,其特征在于,所述训练模块,具体包括:
训练单元,用于将所述训练图像样本作为所述语义特征生成器的输入,根据所述多目标损失函数,采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练,使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化,得到训练好的生成对抗网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263452.4A CN111476294B (zh) | 2020-04-07 | 2020-04-07 | 一种基于生成对抗网络的零样本图像识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263452.4A CN111476294B (zh) | 2020-04-07 | 2020-04-07 | 一种基于生成对抗网络的零样本图像识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476294A CN111476294A (zh) | 2020-07-31 |
CN111476294B true CN111476294B (zh) | 2022-03-22 |
Family
ID=71749908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010263452.4A Expired - Fee Related CN111476294B (zh) | 2020-04-07 | 2020-04-07 | 一种基于生成对抗网络的零样本图像识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476294B (zh) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950619B (zh) * | 2020-08-05 | 2022-09-09 | 东北林业大学 | 一种基于双重生成对抗网络的主动学习方法 |
CN112069397B (zh) * | 2020-08-21 | 2023-08-04 | 三峡大学 | 自注意力机制与生成对抗网络相结合的谣言检测方法 |
CN112001122B (zh) * | 2020-08-26 | 2023-09-26 | 合肥工业大学 | 基于端到端生成对抗网络的非接触式生理信号测量方法 |
CN112199479A (zh) * | 2020-09-15 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 优化语言语义理解模型方法、装置、设备及存储介质 |
CN112149802B (zh) * | 2020-09-17 | 2022-08-09 | 广西大学 | 一种语义结构一致的图像内容转换方法 |
CN112101470B (zh) * | 2020-09-18 | 2023-04-11 | 上海电力大学 | 一种基于多通道高斯gan的引导零样本识别方法 |
CN112199637B (zh) * | 2020-09-21 | 2024-04-12 | 浙江大学 | 基于回归注意力生成对抗网络数据增强的回归建模方法 |
CN112308113A (zh) * | 2020-09-23 | 2021-02-02 | 济南浪潮高新科技投资发展有限公司 | 一种基于半监督的目标识别方法、设备及介质 |
CN112232378A (zh) * | 2020-09-23 | 2021-01-15 | 中国人民解放军战略支援部队信息工程大学 | 面向fMRI视觉分类的零次学习方法 |
CN112364138A (zh) * | 2020-10-12 | 2021-02-12 | 上海交通大学 | 一种基于对抗攻击技术的视觉问答数据增强方法及装置 |
CN112287779B (zh) * | 2020-10-19 | 2022-03-25 | 华南农业大学 | 一种低光照度图像自然光照度补强方法及应用 |
CN112364894B (zh) * | 2020-10-23 | 2022-07-08 | 天津大学 | 一种基于元学习的对抗网络的零样本图像分类方法 |
CN112415514B (zh) * | 2020-11-16 | 2023-05-02 | 北京环境特性研究所 | 一种目标sar图像生成方法及装置 |
CN113191381B (zh) * | 2020-12-04 | 2022-10-11 | 云南大学 | 一种基于交叉知识的图像零次分类模型及其分类方法 |
CN112560034B (zh) * | 2020-12-11 | 2024-03-29 | 宿迁学院 | 基于反馈式深度对抗网络的恶意代码样本合成方法及装置 |
CN112667496B (zh) * | 2020-12-14 | 2022-11-18 | 清华大学 | 基于多先验的黑盒对抗测试样本生成方法及装置 |
CN112580722B (zh) * | 2020-12-20 | 2024-06-14 | 大连理工大学人工智能大连研究院 | 一种基于条件对抗自动编码机的广义零样本图像识别方法 |
CN112731327B (zh) * | 2020-12-25 | 2023-05-23 | 南昌航空大学 | 一种基于cn-lsgan、stft和cnn的hrrp雷达目标识别方法 |
CN112700408B (zh) * | 2020-12-28 | 2023-09-08 | ***股份有限公司 | 模型训练方法、图像质量评估方法及装置 |
CN112767505B (zh) * | 2020-12-31 | 2023-12-22 | 深圳市联影高端医疗装备创新研究院 | 图像处理方法、训练方法、装置、电子终端及存储介质 |
CN112767507B (zh) * | 2021-01-15 | 2022-11-18 | 大连理工大学 | 基于动态记忆模块和生成对抗网络的动漫草图上色方法 |
CN112766366A (zh) * | 2021-01-18 | 2021-05-07 | 深圳前海微众银行股份有限公司 | 对抗生成网络的训练方法及其图像处理方法、装置 |
CN112766386B (zh) * | 2021-01-25 | 2022-09-20 | 大连理工大学 | 一种基于多输入多输出融合网络的广义零样本学习方法 |
CN112818995B (zh) * | 2021-01-27 | 2024-05-21 | 北京达佳互联信息技术有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN113283423B (zh) * | 2021-01-29 | 2022-08-16 | 南京理工大学 | 基于生成网络的自然场景扭曲文本图像矫正方法及*** |
CN113221948B (zh) * | 2021-04-13 | 2022-08-05 | 复旦大学 | 基于对抗生成网络和弱监督学习的数字切片图像分类方法 |
CN113222002B (zh) * | 2021-05-07 | 2024-04-05 | 西安交通大学 | 一种基于生成式鉴别性对比优化的零样本分类方法 |
CN113140020B (zh) * | 2021-05-13 | 2022-10-14 | 电子科技大学 | 一种基于伴随监督生成对抗网络的文本生成图像的方法 |
CN113269274B (zh) * | 2021-06-18 | 2022-04-19 | 南昌航空大学 | 一种基于循环一致性的零样本识别方法及*** |
CN113726545B (zh) * | 2021-06-23 | 2022-12-23 | 清华大学 | 基于知识增强生成对抗网络的网络流量生成方法及装置 |
CN113378959B (zh) * | 2021-06-24 | 2022-03-15 | 中国矿业大学 | 一种基于语义纠错下生成对抗网络的零样本学习方法 |
CN113706645A (zh) * | 2021-06-30 | 2021-11-26 | 酷栈(宁波)创意科技有限公司 | 用于山水画绘制的信息处理方法 |
CN113361646A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于语义信息保留的广义零样本图像识别方法及模型 |
CN113609569B (zh) * | 2021-07-01 | 2023-06-09 | 湖州师范学院 | 一种判别式的广义零样本学习故障诊断方法 |
CN113537322B (zh) * | 2021-07-02 | 2023-04-18 | 电子科技大学 | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 |
CN113505845A (zh) * | 2021-07-23 | 2021-10-15 | 黑龙江省博雅智睿科技发展有限责任公司 | 一种基于语言的深度学习训练集图像生成方法 |
CN113706379B (zh) * | 2021-07-29 | 2023-05-26 | 山东财经大学 | 一种基于医学图像处理的层间插值方法及*** |
CN113657272B (zh) * | 2021-08-17 | 2022-06-28 | 山东建筑大学 | 一种基于缺失数据补全的微视频分类方法及*** |
CN113746087B (zh) * | 2021-08-19 | 2023-03-21 | 浙江大学 | 基于ctgan的电网暂稳样本可控生成以及评估方法和*** |
CN113763442B (zh) * | 2021-09-07 | 2023-06-13 | 南昌航空大学 | 一种可变形医学图像配准方法及*** |
CN113762180B (zh) * | 2021-09-13 | 2023-09-01 | 中国科学技术大学 | 基于毫米波雷达信号的人体活动成像的训练方法及*** |
CN113806584B (zh) * | 2021-09-17 | 2022-10-14 | 河海大学 | 基于自监督跨模态感知损失的乐队指挥动作生成方法 |
CN114176549B (zh) * | 2021-12-23 | 2024-04-16 | 杭州电子科技大学 | 基于生成式对抗网络的胎心率信号数据增强方法和装置 |
CN114005005B (zh) * | 2021-12-30 | 2022-03-22 | 深圳佑驾创新科技有限公司 | 双重批标准化的零实例图像分类方法 |
CN114511737B (zh) * | 2022-01-24 | 2022-09-09 | 北京建筑大学 | 图像识别域泛化模型的训练方法 |
CN114998124B (zh) * | 2022-05-23 | 2024-06-18 | 北京航空航天大学 | 面向目标检测的图像清晰化处理方法 |
CN114723611B (zh) * | 2022-06-10 | 2022-09-30 | 季华实验室 | 图像重建模型训练方法、重建方法、装置、设备及介质 |
CN114757342B (zh) * | 2022-06-14 | 2022-09-09 | 南昌大学 | 一种基于对抗训练的电子数据信息反取证方法 |
CN115314254B (zh) * | 2022-07-07 | 2023-06-23 | 中国人民解放军战略支援部队信息工程大学 | 基于改进wgan-gp的半监督恶意流量检测方法 |
CN115222752B (zh) * | 2022-09-19 | 2023-01-24 | 之江实验室 | 基于特征解耦的病理图像特征提取器训练方法及装置 |
CN115424119B (zh) * | 2022-11-04 | 2023-03-24 | 之江实验室 | 基于语义分形的可解释gan的图像生成训练方法及装置 |
CN115527216B (zh) * | 2022-11-09 | 2023-05-23 | 中国矿业大学(北京) | 基于调制融合和生成对抗网络的文本生成图像方法 |
CN116579414B (zh) * | 2023-03-24 | 2024-04-02 | 浙江医准智能科技有限公司 | 模型训练方法、mri薄层数据重建方法、装置及设备 |
CN117541883B (zh) * | 2024-01-09 | 2024-04-09 | 四川见山科技有限责任公司 | 图像生成模型训练、图像生成方法、***以及电子设备 |
CN117610614B (zh) * | 2024-01-11 | 2024-03-22 | 四川大学 | 基于注意力引导的生成对抗网络零样本核电密封检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110334781A (zh) * | 2019-06-10 | 2019-10-15 | 大连理工大学 | 一种基于Res-Gan的零样本学习算法 |
CN110443293A (zh) * | 2019-07-25 | 2019-11-12 | 天津大学 | 基于双判别生成对抗网络文本重构的零样本图像分类方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110795585A (zh) * | 2019-11-12 | 2020-02-14 | 福州大学 | 基于生成对抗网络的零样本图像分类模型及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10810767B2 (en) * | 2018-06-12 | 2020-10-20 | Siemens Healthcare Gmbh | Machine-learned network for Fourier transform in reconstruction for medical imaging |
-
2020
- 2020-04-07 CN CN202010263452.4A patent/CN111476294B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110334781A (zh) * | 2019-06-10 | 2019-10-15 | 大连理工大学 | 一种基于Res-Gan的零样本学习算法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110443293A (zh) * | 2019-07-25 | 2019-11-12 | 天津大学 | 基于双判别生成对抗网络文本重构的零样本图像分类方法 |
CN110795585A (zh) * | 2019-11-12 | 2020-02-14 | 福州大学 | 基于生成对抗网络的零样本图像分类模型及其方法 |
Non-Patent Citations (3)
Title |
---|
"Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks";Jun-Yan Zhu等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171225;第2242-2251页 * |
"基于去冗余特征和语义关系约束的零样本属性识别";张桂梅等;《模式识别与人工智能》;20210930;第 34 卷(第 9 期);第809-823页 * |
"结合迁移引导和双向循环结构 GAN 的零样本文本识别";张桂梅等;《模式识别与人工智能 》;20201231;第 33 卷(第 12 期);第1083-1096页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476294A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及*** | |
CN110147457B (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN108875818B (zh) | 基于变分自编码机与对抗网络结合的零样本图像分类方法 | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
CN111581405A (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力***故障诊断方法 | |
Chen | Model reprogramming: Resource-efficient cross-domain machine learning | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN111985538A (zh) | 基于语义辅助注意力机制的小样本图片分类模型及方法 | |
CN116308754B (zh) | 一种银行信贷风险预警***及其方法 | |
Chen et al. | New ideas and trends in deep multimodal content understanding: A review | |
CN110287354A (zh) | 一种基于多模态神经网络的高分遥感图像语义理解方法 | |
CN113095158A (zh) | 一种基于对抗生成网络的笔迹生成方法及装置 | |
Tang et al. | Class-level prototype guided multiscale feature learning for remote sensing scene classification with limited labels | |
Xie et al. | Writer-independent online signature verification based on 2D representation of time series data using triplet supervised network | |
Nijhawan et al. | VTnet+ Handcrafted based approach for food cuisines classification | |
CN113222002A (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
Hu et al. | Decouple the object: Component-level semantic recognizer for point clouds classification | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN115640418A (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及*** | |
Singh et al. | Visual content generation from textual description using improved adversarial network | |
CN114757183A (zh) | 一种基于对比对齐网络的跨领域情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220322 |
|
CF01 | Termination of patent right due to non-payment of annual fee |