CN111476294B

CN111476294B - 一种基于生成对抗网络的零样本图像识别方法及***

Info

Publication number: CN111476294B
Application number: CN202010263452.4A
Authority: CN
Inventors: 张桂梅; 龙邦耀
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2022-03-22
Anticipated expiration: 2040-04-07
Also published as: CN111476294A

Abstract

本发明公开了一种基于生成对抗网络的零样本图像识别方法及***。该方法包括：获取带标注信息的训练图像样本和不带标注信息的测试图像样本；构建生成对抗网络模型；生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器；构建包括循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数的多目标损失函数；将训练图像样本作为生成对抗网络模型的输入，基于多目标损失函数对生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型；将测试图像样本输入至训练好的生成对抗网络模型中，得到识别结果。本发明能识别未带标注信息的草图，且零样本识别的精度高。

Description

一种基于生成对抗网络的零样本图像识别方法及***

技术领域

本发明涉及基于弱/半监督的图像识别领域，特别是涉及一种基于生成对抗网络的零样本图像识别方法及***。

背景技术

零样本学习(Zero-shot Learning，ZSL)的概念首先是由H.Larochelle等人在2008年提出，主要用于解决在有标签的训练样本不足以涵盖所有对象类的情况下，如何对未知新目标进行正确分类识别的问题。如果按着传统监督学习方法在训练集上学习一个分类器应用到测试样本集上，由于两个域的样本分布不相同导致分类效果不佳。该图像识别问题称为零样本识别。

零样本识别只需要已知类别的标签样本，就能预测未知类别。其主要思路是引入类别语义信息作为中间层特征，将视觉特征与语义特征联系起来。因此，在特征层面，实现零样本识别的关键问题是：1)寻找能够充分表达图像视觉信息的视觉特征和能够充分代表语义特征的语义信息；2)如何将视觉特征和类别语义信息联系起来。

针对关键问题1)，找到能够充分表达图像视觉信息的视觉特征是零样本识别的挑战之一。随着深度学习的兴起，学者们应用深层卷积神经网络提取图像的识别特征。零样本图像识别不仅需要图像的视觉特征，而且需要能够表示图像类别语义的语义特征来联系已知类和未知类。当前使用最广泛的语义特征有属性特征和文本特征。由于属性特征是人为标注的，准确性欠佳。近年来，随着自然语言处理技术的发展，利用文本描述特征代替属性特征的研究得到广泛关注。因为文本描述特征可以从语料库中直接提取，每一个类别就对应着在文本描述空间中的一个向量。与属性特征相比，文本描述特征可以通过自然语言处理技术从无标签的文本语料库中获得其中任意单词的文本矢量，因此具有更好的扩展性。常用的文本矢量提取方法有Word2Vec。

现有的语义特征空间可分为三类：(1)基于属性的语义特征空间。(2)基于文本的语义特征空间。(3)公共语义特征空间。选定语义特征空间后，如何建立视觉特征和语义特征间的映射关系是零样本识别的第二个关键问题。

针对关键问题2)，在给定的语义空间中提取到已知类和未知类的语义特征后，各类别间的语义相关性就可以由语义特征之间的相似性求出。然而，样本图像是由视觉空间中的视觉特征表示的，由于语义鸿沟的存在，它们不能同语义空间的语义特征直接建立联系。现有方法大多通过已知类别图片的视觉特征和相对应标签的语义特征，学习从视觉空间映射到语义空间的映射函数。然后，通过该映射函数，将测试图像的视觉特征映射到语义空间，得到预测的语义特征。最后找出与它距离最近的未知类的语义特征来确定其所属类别。

在零样本图像识别中，由于已知类和未知类不相交，将从训练样本集学习到的模型直接应用于测试集会导致测试集样本在语义空间的映射与真实类别语义存在较大的偏差，这种现象称为域偏移。最近，为了解决零样本学习中的域偏移问题，很多方法被提出，如数据增强、自训练以及枢纽度矫正。

零样本识别近些年受到中外学者的广泛关注，并且零样本识别的有关应用算法已经开始应用于实际中。以前的零样本学习方法主要在传统的零样本学习设置中对目标进行识别，即测试图像仅仅被限制在目标类中，然而在实际的场景中，测试图像不仅来自于目标类，还可能来自于源类。这种情况下，来自源类和目标类的数据都应该被考虑到，于是近些年引入了广义零样本设置，然而基于广义零样本学习的零样本识别精度远低于基于传统零样本学习的识别精度。因此，目前的广义零样本识别方法存在识别精度低的问题。

发明内容

基于此，有必要提供一种基于生成对抗网络的零样本图像识别方法及***，能够对来自于目标类和源类的测试图像进行高精度识别。

为实现上述目的，本发明提供了如下方案：

一种基于生成对抗网络的零样本图像识别方法，包括：

获取训练图像样本和测试图像样本；所述训练图像样本为带标注信息的样本图像，所述测试图像样本为不带标注信息的样本图像；

构建生成对抗网络模型；所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器；所述语义特征生成器用于根据真实视觉特征生成伪语义特征；所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征；所述语义判别器用于对真实语义特征和所述伪语义特征进行判别；所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别；

构建多目标损失函数；所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数；

将所述训练图像样本作为所述生成对抗网络模型的输入，基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型；

将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果。

本发明还提供了一种基于生成对抗网络的零样本图像识别***，包括：

样本获取模块，用于获取训练图像样本和测试图像样本；所述训练图像样本为带标注信息的样本图像，所述测试图像样本为不带标注信息的样本图像；

网络模型构建模块，用于构建生成对抗网络模型；所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器；所述语义特征生成器用于根据真实视觉特征生成伪语义特征；所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征；所述语义判别器用于对真实语义特征和所述伪语义特征进行判别；所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别；

损失函数构建模块，用于构建多目标损失函数；所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数；

训练模块，用于将所述训练图像样本作为所述生成对抗网络模型的输入，基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型；

测试识别模块，用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于生成对抗网络的零样本图像识别方法及***，所述方法构建包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器的生成对抗网络模型；构建包括循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数的多目标损失函数；将训练图像样本作为生成对抗网络模型的输入，基于多目标损失函数对生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型；将测试图像样本输入至训练好的生成对抗网络模型中，得到识别结果。本发明可以识别未带标注信息的草图，且能够提高零样本识别的精度，提升模型的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于生成对抗网络的零样本图像识别方法的流程图；

图2为本发明实施例中语义特征生成器G₁的网络结构图；

图3为本发明实施例中视觉特征生成器G₂的网络结构图；

图4为本发明实施例中语义判别器D₁的网络结构图；

图5为本发明实施例中视觉判别器D₂的网络结构图；

图6为本发明实施例训练好的生成对抗网络模型的结构图；

图7为本发明实施例一种基于生成对抗网络的零样本图像识别***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了提高广义零样本的识别精度，需要解决以下两个问题：一方面，需要对齐的图像对或者需要低效率的特征融合来将视觉信息映射到语义空间；另一方面，用自编码器从***中提取语义信息时会存在冗余的噪声文本，影响识别效果。

图1为本发明实施例一种基于生成对抗网络的零样本图像识别方法的流程图。参见图1，本实施例的基于生成对抗网络的零样本图像识别方法，包括：

步骤101：获取训练图像样本和测试图像样本。

所述训练图像样本为带标注信息的样本图像，所述测试图像样本为不带标注信息的样本图像。

步骤102：构建生成对抗网络模型；所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器。

所述语义特征生成器用于根据真实视觉特征生成伪语义特征；所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征；所述语义判别器用于对真实语义特征和所述伪语义特征进行判别；所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别。

在执行该步骤之前，还需要：1)将***中的文本输入至分层模型中，得到文本有用信息，并将所述文本有用信息输入至自编码器中，得到真实语义特征。2)将所述训练图像样本输入基于注意力机制的CNN模型中，得到真实视觉特征。

步骤103：构建多目标损失函数；所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数。

步骤104：将所述训练图像样本作为所述生成对抗网络模型的输入，基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型。

步骤105：将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果。

其中，步骤101为本实施例的训练初期，识别模型的训练初期是在深度学习的Tensorflow框架下执行完成，获取训练图像样本和测试图像样本的具体流程如下：

本实施例中的训练图像样本和测试图像样本可以选自Sketchy和TU-Berlin。Sketchy和TU-Berlin是两个常用和流行的草图数据集。

Sketchy数据集是一个很大的草图集合。数据集由125个不同类别的从图组成，每个类别有100张草图。这12500张草图中出现物体的草图是通过群组寻源收集的，结果是75471张草图。该数据集还包含特定图像和草图之间的细粒度对应关系(对齐)，以及用于基于深度学习的方法的各种数据扩充。随后通过添加60502张照片扩展了数据集，总共生成73002张草图。我们随机抽取25类草图作为零样本识别的不可见测试集(不使用其标注信息)，其余100类数据用于训练(使用标注信息)。

TU-Berlin数据集(扩展)包含250个类别，随后扩展了20000张草图，自然图像对应于草图类，总大小为204489。随机选取30类草图作为测试集(不使用其标注信息)；其余220个类用于训练(使用标注信息)。

其中，步骤102为本实施例的训练中期，即构建生成对抗网络模型的结构，所述生成对抗网络模型包括语义特征生成器G₁、视觉特征生成器G₂、语义判别器D₁和视觉判别器D₂。具体构建过程如下：

1)生成器网络的构建：

构建生成器网络，所述生成器网络有两个：语义特征生成器G₁和视觉特征生成器G₂。如图2所示，语义特征生成器G₁包括2组卷积模块和2组全连接模块。其中卷积模块由一个卷积层(Conv)、一个最大池化层(Max Pooling)、一个归一化层(normalization)组成；全连接模块由一个全连接层(FC)、一个Leaky ReLU组成。如图3所示，视觉特征生成器G₂包括两组全连接模块、3层4096维的全连接层(FC 4096)、一个重采样层(Reshape)、5组上采样模块。其中全连接模块由一个全连接层、一个Leaky ReLU组成；上采样模块由两个上采样层(Upconv)、两个Leaky ReLU组成，其中上采样层和Leaky ReLU交替连接。G₂输入来自于G₁输出的语义特征。

具体地，语义特征生成器G₁包括2组卷积模块、2组全连接模块。将图像输入到生成器之后，首先通过卷积模块，用卷积核为11、步长为4的卷积层进行卷积处理，经过池化层为3、步长为2的最大池化减少卷积层参数误差留下的均方误差偏移，在随后的归一化中对输入数据的维度进行归一化；然后经过卷积核为5、步长为1的卷积层进行卷积处理，经过池化层为3、步长为2的最大池化减少卷积层参数误差留下的均方误差偏移，在随后的归一化中对输入数据的维度进行归一化，随后输入到1024的全连接模块；最后经过两个同样大小的全连接模块将输入的视觉特征生成语义特征。

具体地，视觉特征生成器G₂包括两组全连接模块、3层4096维的全连接层、一个重采样层、5组上采样模块。将语义特征生成器生成的语义特征输入到视觉特征生成器中，首先经过两个1024的全连接模块；然后三个4096维全连接层对输入数据提取4096维的特征向量；接着经过一个重采样层，对输入特征向量的维度进行重采样为4×4×256；最后经过5个卷积核为4、步长为2的上采样模块，对特征向量进行上采样，每上采样一次就用一次激活函数防止梯度消失；输出特征向量。

2)判别器网络的构建：

构建判别器网络，所述的判别器网络有两个：语义判别器D₁和视觉判别器D₂。D₁包括两个分支：一个分支用于0/1(真假)二分类，另一个分支用于输入标签类别的分类。第一个分支的网络结构包含一组全连接模块和一个二路的全连接层。全连接模块由一个全连接层、一个Leaky ReLU组成；另一个分支的网络结构包含一组全连接模块和一个n路全连接层。全连接模块由一个全连接层和一个Leaky ReLU组成。D₂包括一组全连接模块和一个全连接层，其中全连接模块由一个全连接层和一个Leaky ReLU组成。两个判别器D₁，D₂最后一层的全连接层在整个卷积神经网络中用作分类器。

如图4所示，具体地，语义判别器D₁包括两个分支，一个分支用于0/1二分类；另一个分支用于类标签的分类。其接收来自于自编码器提取的真实语义特征和语义特征生成器G₁生成的伪语义特征，首先在二分类分支中经过一组1024的全连接模块提取特征，然后用激活函数来稳定梯度，最后经过一个全连接层进行0/1二分类，判别输入特征的真假；在另一个n路分类分支中用最后的全连接层对输入数据进行n路分类。

如图5所示，具体地，视觉判别器D₂用来判别使用视觉特征生成器G₂生成的伪视觉特征和CNN提取的真实视觉特征之间特征的真假。将生成的伪视觉特征输入到判别网络D₂中，首先用1024的全连接层进行特征提取，然后经过激活函数防止梯度消失，最后用全连接层对数据进行二分类，判断输入特征的真假。

其中，步骤103中构建多目标损失函数，损失函数构建的目的是：根据损失函数值的收敛情况，能够更好的对零样本识别网络模型中对应的参数进行更新优化，最终获取最优化的生成对抗网络模型，对真实的数据集中待识别的图像完成更加准确的识别。具体的：

上述的对抗损失函数分为两个部分，其一是对合成语义特征进行评估的CTGAN的对抗损失，CTGAN的对抗损失可以对梯度惩罚进行相应的约束，以提高合成特征的质量；其二是对合成的伪视觉特征进行评估的普通GAN的对抗损失，普通的对抗机制可以很好的缩小域差异。

循环一致性损失函数可以很好的证明基于注意力机制的CNN提取的视觉特征和生成的伪视觉特征之间的匹配程度。

分类器附加在语义判别器D₁上，因此分类器可以对类标签数据进行有效地分类，以满足零样本图像识别的任务。所述生成对抗网络模型中语义判别器D₁的对抗损失函数具体如下：

其中，x表示真实视觉特征，a表示真实语义特征，G₁(x)表示输入视觉特征为x的语义生成器，D₁(G₁(x))表示输入G₁(x)的语义判别器，D₁(a)表示输入语义特征为a的语义判别器，P_f表示真实视觉特征的先验分布，P_r表示真实语义特征的先验分布，

表示特征之间的线性插值，P_r,f表示服从真实视觉特征和真实语义特征的先验分布；第一项

表示伪特征分布的期望；第二项

表示真实特征分布的期望；第一项与第二项之差表示特征分布之间的Wasserstein距离；

表示执行Lipschitz约束的梯度惩罚，λ₂CT|_x',x”表示增加的约束梯度惩罚的一致性或连续项；λ₁表示梯度惩罚的权重；λ₂表示一致性或连续项的权重；其中，

x′和x″均表示真实视觉特征附近的扰动数据(真实样本附近随意抽取的扰动数据)；c为一个固定的常数；D(x')表示输入为x'的语义判别器，D(x”)表示输入为x”的语义判别器，||D(x')-D(x”)||表示两个判别器值之间的距离，||x'-x”||表示两个扰动数据特征之间的距离；consistency term是用

来近似梯度并限制其小于c。

构建视觉判别器的对抗损失函数

其中，

表示伪语义特征，D₂(x)表示输入视觉特征x的视觉判别器，

表示输入伪语义特征

的视觉生成器，

表示输入

的视觉特征生成器的视觉判别器；通过损失函数不断优化网络，使得生成的伪视觉特征

和真实的视觉特征x越来越接近。

对抗损失的作用是通过对真实特征分布和生成特征分布进行整体分析，给生成器网络输出反馈信号，进行网络的参数调整，使其最优化。

构建真实视觉特征与伪视觉特征的循环一致性损失函数

E[||G₂(G₁(x))-x||₁]表示用循环一致性度量两个视觉特征的分布期望；

表示用循环一致性度量两个语义特征的分布期望；循环一致性损失L_cyc用以优化网络参数，使得真实视觉特征x和伪语义特征

能更好地匹配。

构建语义判别器的分类损失函数

L_cls＝-E[logP(b|G₁(a)；θ)]；

其中，P(c|G₁(a)；θ)表示类标签的类条件概率，G₁(a)表示输入语义特征为a的语义生成器，θ为分类网络的参数，b是a的类标签。通过最小化生成特征的分类损失，提高类标签的分类精度。

其中，步骤104对上述构造的生成对抗网络模型进行迭代训练，更新和优化网络模型的参数，得到训练好的生成对抗网络模型。具体的，将所述训练图像样本作为所述语义特征生成器的输入，根据所述多目标损失函数，采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练，使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化，得到训练好的生成对抗网络模型。图6为本发明实施例训练好的生成对抗网络模型的结构图。具体迭代训练步骤如下：

分别将所述的Sketchy和TU-Berlin两个数据集上的训练样本数据输入到基于注意力机制的CNN中，提取训练样本的视觉特征信息，然后将其输入到语义特征生成器G₁中，产生伪语义特征

将上一步获得的伪语义特征输入到视觉特征生成器G₂中生成伪视觉特征

为了在训练过程中更好地度量草图和真实图像之间的相似性，引入cycle-GAN循环一致性损失约束。因为cycle-GAN由两个生成器和两个判别器组成。语义特征和视觉特征是作为两个不同域的数据信息，语义特征生成器G₁将真实视觉特征x生成伪语义特征

视觉特征生成器G₂将得到的伪语义特征

反向生成伪视觉特征

然后用cycleloss度量真实视觉特征和伪视觉特征的相似性。

将***中的文本输入到分层模型中得到文本的有用信息，然后再将其输入到自编码器，提取到***文本的真实语义信息。将该真实语义信息a作为判别器D₁的输入，与G₁生成的伪语义特征进行对抗学习。

采用WGAN的变体CTGAN作为判别器D₁的网络框架，以提高零样本图像识别的精度。因为WGAN的梯度惩罚不合理，如果真实样本分布和生成的伪样本分布距离较远，此时梯度惩罚往往无法检测到真实样本附近区域的连续性，也即判别器将破坏Lipschitz连续性。CTGAN在WGAN的基础上加入了一个consistency term对真实样本分布的梯度进行约束，从而增强了数据样本分布附近的Lipschitz连续性。

将视觉特征生成器G₂生成的伪视觉特征

和真实视觉特征x作为视觉判别器D₂的输入，G₂判别视觉特征的真假，产生对抗损失，通过损失函数不断更新优化网络参数，使得伪视觉特征

与真实视觉特征x越来越接近。

根据所述***文本和草图的特征信息构建判别器D₁的对抗损失函数L_CTGAN、判别器D₂的对抗损失函数L_adv；根据草图的真实视觉特征和伪视觉特征构造循环一致性损失函数L_cyc，再构建一个用于对标签类别分类的损失函数L_cls。

具体更新优化过程为：固定生成器网络参数，对所述判别器网络进行训练，得到训练后的判别器网络模型；再固定所述训练后的判别器网络模型参数，对所述生成器网络进行反向传播训练，得到优化后生成器网络模型，如此迭代循环，最后得到最优的生成对抗网络模型。

本实施例中的基于生成对抗网络的零样本图像识别方法具有以下优点：将语义对齐的循环一致损失约束引入生成模型，以解决现实场景中训练图像和测试图像之间无法利用公共语义知识的问题，并对视觉特征和语义特征之间的相关性进行度量，此外在判别器的输出部分添加一个与判别器并行的分类网络，对类标签进行正确的分类；使用WGAN的变体CTGAN对真实特征和合成特征进行对抗学习，在WGAN的基础上加了一个consistencyterm，以此来约束真实特征分布的梯度；零样本学习在基于特征的整个属性集合进行识别时，存在训练成本和训练复杂度比较大的问题，拟提出使用基于***文本和分层结构的自编码器提取方案，对属性的子集进行特征提取，然后用分层结构进行划分，对有用的信息进行筛选，提取来自文本中重要特征信息，从而减少训练成本和训练复杂度，以此证明零样本学习对一个属性子集的识别比整个属性集合的识别更有效。

本实施例中的上述方法采用生成对抗网络实现零样本的识别，可以识别未带标注信息的草图，且能够提高零样本识别的精度，提升模型的泛化能力。

图7为本发明实施例一种基于生成对抗网络的零样本图像识别***的结构示意图。参见图7，所述基于生成对抗网络的零样本图像识别***，包括：

样本获取模块201，用于获取训练图像样本和测试图像样本；所述训练图像样本为带标注信息的样本图像，所述测试图像样本为不带标注信息的样本图像。

网络模型构建模块202，用于构建生成对抗网络模型；所述生成对抗网络模型包括语义特征生成器、视觉特征生成器、语义判别器和视觉判别器；所述语义特征生成器用于根据真实视觉特征生成伪语义特征；所述视觉特征生成器用于根据所述伪语义特征生成伪视觉特征；所述语义判别器用于对真实语义特征和所述伪语义特征进行判别；所述视觉判别器用于对真实视觉特征和所述伪视觉特征进行判别。

损失函数构建模块203，用于构建多目标损失函数；所述多目标损失函数包括真实视觉特征与伪视觉特征的循环一致性损失函数、语义判别器的对抗损失函数、视觉判别器的对抗损失函数和语义判别器的分类损失函数。

训练模块204，用于将所述训练图像样本作为所述生成对抗网络模型的输入，基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型。

测试识别模块205，用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果。

作为一种可选的实施方式，所述基于生成对抗网络的零样本图像识别***，还还包括：

真实语义特征获取模块，用于将***中的文本输入至分层模型中，得到文本有用信息，并将所述文本有用信息输入至自编码器中，得到真实语义特征。

真实视觉特征获取模块，用于将所述训练图像样本输入基于注意力机制的CNN模型中，得到真实视觉特征。

作为一种可选的实施方式，所述网络模型构建模块202，具体包括：

第一生成器构建单元，用于构建语义特征生成器；所述语义特征生成器包括两组卷积模块和两组全连接模块；所述卷积模块包括依次连接的卷积层、最大池化层和归一化层；所述全连接模块包括全连接层和Leaky ReLU层。

第二生成器构建单元，用于构建视觉特征生成器；所述视觉特征生成器包括依次连接的两组全连接模块、三层4096维的全连接层、一个重采样层和五组上采样模块；所述上采样模块包括两个上采样层和两个Leaky ReLU层；所述上采样模块中的上采样层和LeakyReLU层交替连接。

第一判别器构建单元，用于构建语义判别器；所述语义判别器包括一组全连接模块、一个二路的全连接层、一个n路的全连接层、二分类器和输入标签分类器。

第二判别器构建单元，用于构建视觉判别器；所述视觉判别器包括一组全连接模块、一个全连接层和二分类器。

作为一种可选的实施方式，所述损失函数构建模块203，具体包括：

第一损失函数构建单元，用于构建语义判别器的对抗损失函数

表示特征之间的线性插值，P_r,f表示服从真实视觉特征和真实语义特征的先验分布；

表示伪特征分布的期望；

表示真实特征分布的期望；

x′和x″均表示真实视觉特征附近的扰动数据；c为一个固定的常数；D(x')表示输入为x'的语义判别器，D(x”)表示输入为x”的语义判别器，||D(x')-D(x”)||表示两个判别器值之间的距离，||x’-x”||表示两个扰动数据特征之间的距离。

第二损失函数构建单元，用于构建视觉判别器的对抗损失函数

其中，

表示伪语义特征，D₂(x)表示输入视觉特征x的视觉判别器，

表示输入伪语义特征

的视觉生成器，

表示输入

的视觉特征生成器的视觉判别器。

第三损失函数构建单元，用于构建真实视觉特征与伪视觉特征的循环一致性损失函数

表示用循环一致性度量两个语义特征的分布期望。

第四损失函数构建单元，用于构建语义判别器的分类损失函数

L_cls＝-E[logP(b|G₁(a)；θ)]；

其中，P(c|G₁(a)；θ)表示类标签的类条件概率，G₁(a)表示输入语义特征为a的语义生成器，θ为分类网络的参数，b是a的类标签。

作为一种可选的实施方式，所述训练模块204，具体包括：

训练单元，用于将所述训练图像样本作为所述语义特征生成器的输入，根据所述多目标损失函数，采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练，使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化，得到训练好的生成对抗网络模型。

本实施例中的基于生成对抗网络的零样本图像识别***，采用生成对抗网络实现零样本的识别，可以识别未带标注信息的草图，且能够提高零样本识别的精度，提升模型的泛化能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于生成对抗网络的零样本图像识别方法，其特征在于，包括：

将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果；

所述构建多目标损失函数，具体包括：

构建语义判别器的对抗损失函数

表示伪特征分布的期望；

表示真实特征分布的期望；

x′和x″均表示真实视觉特征附近的扰动数据；c为一个固定的常数；D(x')表示输入为x'的语义判别器，D(x”)表示输入为x”的语义判别器，||D(x')-D(x”)||表示两个判别器值之间的距离，||x'-x”||表示两个扰动数据特征之间的距离；

构建视觉判别器的对抗损失函数

其中，

表示伪语义特征，D₂(x)表示输入视觉特征x的视觉判别器，

表示输入伪语义特征a～的视觉生成器，

表示输入

的视觉特征生成器的视觉判别器；

构建真实视觉特征与伪视觉特征的循环一致性损失函数

Ε[||G₂(G₁(x))-x||₁]表示用循环一致性度量两个视觉特征的分布期望；

表示用循环一致性度量两个语义特征的分布期望；

构建语义判别器的分类损失函数

L_cls＝-Ε[logP(b|G₁(a)；θ)]；

其中，P(b|G₁(a)；θ)表示类标签的类条件概率，G₁(a)表示输入语义特征为a的语义生成器，θ为分类网络的参数，b是a的类标签。

2.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法，其特征在于，在所述构建生成对抗网络模型之前还包括：

将***中的文本输入至分层模型中，得到文本有用信息，并将所述文本有用信息输入至自编码器中，得到真实语义特征；

将所述训练图像样本输入基于注意力机制的CNN模型中，得到真实视觉特征。

3.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法，其特征在于，所述构建生成对抗网络模型，具体包括：

构建语义特征生成器；所述语义特征生成器包括两组卷积模块和两组全连接模块；所述卷积模块包括依次连接的卷积层、最大池化层和归一化层；所述全连接模块包括全连接层和Leaky ReLU层；

构建视觉特征生成器；所述视觉特征生成器包括依次连接的两组全连接模块、三层4096维的全连接层、一个重采样层和五组上采样模块；所述上采样模块包括两个上采样层和两个Leaky ReLU层；所述上采样模块中的上采样层和Leaky ReLU层交替连接；

构建语义判别器；所述语义判别器包括一组全连接模块、一个二路的全连接层、一个n路的全连接层、二分类器和输入标签分类器；

构建视觉判别器；所述视觉判别器包括一组全连接模块、一个全连接层和二分类器。

4.根据权利要求1所述的一种基于生成对抗网络的零样本图像识别方法，其特征在于，所述将所述训练图像样本作为所述生成对抗网络模型的输入，基于所述多目标损失函数对所述生成对抗网络模型进行迭代训练，得到训练好的生成对抗网络模型，具体包括：

将所述训练图像样本作为所述语义特征生成器的输入，根据所述多目标损失函数，采用反向传播的方式对所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器进行联合训练，使得所述语义特征生成器、所述视觉特征生成器、所述语义判别器和所述视觉判别器中的参数不断更新优化，得到训练好的生成对抗网络模型。

5.一种基于生成对抗网络的零样本图像识别***，其特征在于，包括：

测试识别模块，用于将所述测试图像样本输入至所述训练好的生成对抗网络模型中，得到识别结果；

所述损失函数构建模块，具体包括：