CN113642621A

CN113642621A - 基于生成对抗网络的零样本图像分类方法

Info

Publication number: CN113642621A
Application number: CN202110885066.3A
Authority: CN
Inventors: 刘帅; 黄刚; 戴晓峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-12
Anticipated expiration: 2041-08-03

Abstract

本发明公开了一种基于生成对抗网络的零样本图像分类方法，属于深度学习技术领域。包括获取图像数据集；对图像数据集进行预处理得到训练集和测试集；构建核心神经网络，并将训练集输入核心神经网络得到图片图像特征和视觉图像特征，核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络；计算核心神经网络的损失函数，并对核心神经网络的参数进行调节；图片图像特征和视觉图像特征共同训练得到分类器；将测试集输入分类器进行分类。相较于现有技术，本发明通过在生成对抗网络中加入重构网络，使生成对抗网络生成的视觉图像特征更加多样化；在生成对抗网络中引入注意力网络，以减少视觉图像特征中的干扰信息，提高了分类准确度。

Description

基于生成对抗网络的零样本图像分类方法

技术领域

本发明涉及一种基于生成对抗网络的零样本图像分类方法，属于深度学习领域。

背景技术

随着近几年深度学习的发展，深度学习在自然图像识别领域例如图像识别与分类、图像的文本描述以及图像分割等问题也都取得了突破性的进展，在对人脸、车牌号等特定的对象识别与分类方面表现的尤为突出。但算法的发展过程中也逐渐暴露出泛化能力差、所需训练数据大等缺点。而传统方法对图像分类需要大量的标签，训练数据过大则导致人工标注难度大，因此传统的方法无法对其进行分类。

Larochelle等于2008年提出了零样本学习这一概念。随着人们对基于机器学习的零样本学习产生的极大兴趣，零样本可以将已见类拓展到未见类而不需要额外的标签。零样本识别依赖于一个有标记的已见类，以及一个拥有语义信息描述的不可见类。传统的零样本方法主要是建立视觉空间和语义特征空间之间的映射函数，包括视觉空间到语义空间的映射，语义空间到视觉空间的映射，视觉空间和语义空间映射到一个共享的隐空间。但是由于视觉和语义之间的差异，相互映射会导致语义信息丢失。

近年来，由于深度网络的训练缺少注释样本，训练数据生成为了研究热点。生成性对抗网络特别有吸引力，因为它们允许生成真实而清晰的图像，例如，以对象类别为条件的图像。然而，它们还不能生成足够质量的图像来训练深度学习架构。

Xian等人提出了一种新的神经网络体系结构来直接生成神经网络特征，该特征可用于训练零镜头学习的判别分类器。结合强大的WGAN损失和使生成的特征具有区分性的分类损失，Xian等提出的GAN体系结构在很大程度上改进了原始GAN，并由于正则化而具有优于WGAN的优势。然而，原本的零样本图像分类方法的分类准确度较低，且生成对抗网络容易产生模式崩溃的问题，仅通过生成器和判别器之间相互对抗会使得最终生成的图像特征趋向单一化。

有鉴于此，确有必要提出一种基于生成对抗网络的零样本图像分类方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于生成对抗网络的零样本图像分类方法，该方法可以使生成对抗网络生成的图像特征更加多样化，避免图像特征趋于单一化，同时，通过引入注意力网络可以减少图像特征中的干扰信息，提高分类准确度。

为实现上述目的，本发明提供了一种基于生成对抗网络的零样本图像分类方法，包括以下步骤：

步骤1、获取图像数据集；

步骤2、对所述图像数据集进行预处理得到训练集和测试集；

步骤3、构建核心神经网络，并将所述训练集输入所述核心神经网络得到图片图像特征和视觉图像特征，所述核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络；

步骤4、计算核心神经网络的损失函数，并对核心神经网络的参数进行调节；

步骤5、将图片图像特征和视觉图像特征输入分类器网络，并进行共同训练得到分类器；

步骤6、将测试集输入所述分类器，以实现对测试集进行分类。

作为本发明的进一步改进，所述训练集包括图片信息和语义信息，所述图片信息输入所述卷积神经网络后能够提取得到所述图片图像特征，所述语义信息输入所述生成对抗网络后能够得到所述视觉图像特征。

作为本发明的进一步改进，步骤3中的卷积神经网络包括1个通道数为64的7×7卷积层、1个3×3最大池化层以及多个残差卷积块，多个残差卷积块中包括多个通道数不同的卷积层。

作为本发明的进一步改进，所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于生成视觉图像特征，所述判别器网络用于鉴别所述视觉图像特征，并得到一个评分，所述评分的大小用于区分所述视觉图像特征的真实度。

作为本发明的进一步改进，在所述生成器网络中加入所述重构网络，所述语义信息与所述生成器网络随机生成高斯特征结合，得到所述视觉图像特征，所述视觉图像特征中包括虚拟语义信息，所述重构网络将所述虚拟语义信息与所述语义信息进行对比并计算差异，以得到多样化的视觉图像特征。

作为本发明的进一步改进，所述视觉图像特征与所述图片图像特征输入所述注意力网络后用于定位关键信息，使所述视觉图像特征中的干扰信息少且带有注意力。

作为本发明的进一步改进，所述注意力网络具体为：所述视觉图像特征通过三个不同权重的卷积层，得到三个注意力特征，分别为第一注意力特征、第二注意力特征和第三注意力特征，对第一注意力特征进行转置操作后与第二注意力特征相乘，并输入Softmax函数得到特征图β，特征图β的表达式为：

其中，N为视觉图像特征的数量，s_i的计算公式如下：

其中，x为图片图像特征，

为视觉图像特征，W_f和W_g分别是第一注意力特征和第二注意力特征的权重矩阵；T为矩阵转置；

将特征图β与第三注意力特征相乘并输入1*1卷积层，得到带有注意力且干扰信息少的视觉图像特征，表达式为：

其中，W_v为第三注意力特征的权重。

作为本发明的进一步改进，步骤4中计算核心神经网络的损失函数包括计算所述生成对抗网络的损失函数和重构网络的损失函数，并通过两个损失函数的结果对所述核心神经网络中的参数进行调节，所述生成对抗网络的损失函数为：

其中，D表示鉴别器，G表示生成器，z为随机高斯噪声，c(y)为语义信息，

表示生成的图像特征，L_WGAN表达式中前两项

的近似于代价距离，第三项

是梯度惩罚，λ为惩罚系数；

重构网络的损失函数为：

作为本发明的进一步改进，所述分类器网络为Softmax分类器，并通过分类器损失函数调整所述分类器的参数，所述分类器的表达式为：

其中，θ为模型参数。

作为本发明的进一步改进，所述分类器损失函数为：

其中，y是

的真实类别标签，P为真实类别标签y预测

的概率。

本发明的有益效果是：本发明通过在生成对抗网络中加入重构网络，使得生成对抗网络生成的视觉图像特征更加多样化，同时，还能使视觉图像特征与语义信息的相关性更加紧密；进一步的，在生成对抗网络中引入了注意力网络，以减少视觉图像特征中的干扰信息，提高了分类准确度。

附图说明

图1是本发明的整体流程图。

图2是本发明中生成对抗网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供了一种基于生成对抗网络的零样本图像分类方法，通过生成未知类的视觉图像特征使得零样本分类任务转换为传统的图像分类任务，同时，对生成对抗网络中的生成器网络做出改进，使其生成的视觉图像特征更加真实，从而进一步提高生成视觉图像特征的质量；然后再将图像特征经过注意力网络定位视觉图像特征中的关键信息，忽略其他干扰信息，以此来训练分类器，使得生成器能够生成干扰信息较少的视觉图像特征；本发明的分类方法较现有技术具有视觉图像特征质量高，图像分类更加准确的优点。

请参阅图1所示，本发明的基于生成对抗网络的零样本图像分类方法具体包括：

步骤1、获取图像数据集。

获取用于训练***的公用图像数据集；获取计算机视觉的通用数据集分别为AWA(带属性的动物数据集)、FLO(鲜花数据集)、CUB(鸟类细粒度数据集)、SUN(大规模场景数据集)。

步骤2、对所述图像数据集进行预处理得到训练集和测试集。

训练集和测试集之间没有交集，训练集和测试集中均包括图片信息和语义信息。

步骤3、构建核心神经网络，并将所述训练集输入所述核心神经网络得到图片图像特征和视觉图像特征，所述核心神经网络包括卷积神经网络、生成对抗网络、重构网络和注意力网络。

具体的，将图片信息输入卷积神经网络后能够提取得到图片图像特征；语义信息输入生成对抗网络后能够得到视觉图像特征。

请参阅图2所示，训练集中的图片信息和语义信息c(y)∈C为已知项，将随机产生的高斯噪声

和语义信息c(y)∈C作为生成器网络的输入，通过学习一个条件生成器网络G:Z×C→X，输出一个视觉图像特征

随后重构网络将生成的视觉图像特征

重构回虚拟语义信息c’(y)，并计算判断重构后的语义信息c’(y)与原本的语义信息c(y)之间的差异，并通过计算重构网络的损失函数，以调整生成器网络的参数，以此来限制生成器网络生成更符合属性的视觉图像特征。

将图片图像特征x和视觉图像特征

经过注意力网络过滤掉视觉图像特征的干扰信息后和语义信息c(y)一起输入判别器网络，判别器网络经过鉴定，并对图片图像特征和视觉图像特征进行评分，给图片图像特征高分，给视觉图像特征低分。

通过生成器网络G跟判别器网络D之间的互斥竞争，生成器网络G生成的视觉图像特征会越来越像真实图像(即视觉图像特征越来越接近与图片图像特征和语义信息)，一旦生成器网络G能够生成非常真实的视觉图像特征

就可以利用语义信息c(y)∈Y^u来生成任何测试集u的真实的视觉图像特征

实现对零样本图像的分类；最后，将生成的视觉图像特征送入到一个有区别的分类器中进行分类。

卷积神经网络Resnet101包括1个通道数为64的7×7卷积层、1个3×3最大池化层与多个残差卷积块，多个残差卷积块中包括多个通道数不同的卷积层，具体为：1个通道数为64的7×7卷积层，步数为2；1个3×3最大池化层，步数为2。

多个残差卷积块具体为：

A、3个重复的残差卷积块，每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。

B、4个重复的残差卷积块，每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。

C、23个重复的残差卷积块，每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。

D、3个重复的残差卷积块，每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。

生成对抗网络(GANs)由2个重要的网络构成：

生成器网络(Generator)：通过机器生成数据(大部分情况下是图像)，目的是“骗过”判别器网络。

判别器网络(Discriminator)：判断一张图像是真实的还是机器生成的，目的是鉴别生成器网络生成的“假数据”。

生成器网络生成新的数据实例，相对的，判别器网络去评估他们的真实性；也就是说，判别器网络决定每一个它检验的数据实例是否属于真实的视觉图像特征。Discriminator通过真图和假图的数据，进行一个二分类神经网络训练。Generator根据一串随机数就可以捏造出一个"假图像"出来，用这些假图去欺骗Discriminator，Discriminator负责辨别这是真图还是假图，会给出一个评分。比如，Generator生成了一张图，在Discriminator这里评分很高，说明Generator生成能力是很成功的；若Discriminator给出的评分不高，可以有效区分真假图，则Generator的效果还不太好，需要调整参数。

生成对抗网络(GAN)最开始作为一种学习生成模型的方法提出，该模型从一个特定的领域捕获任意的数据分布(例如图像)。

GAN的损失函数为：

其中，G表示生成器网络，D表示判别器网络，x卷积网络提取的图片图像特征，

表示生成器网络生成的视觉图像特征。

简单的图像生成无法满足现实需求，通过将类别标签、句子描述输入到生成器网络和判别器网络中，GAN也被扩展为条件GAN；由于最初的GAN优化的Jenson-Shannon发散会产生的不稳定性，因此WGAN提出了利用Wasserstein距离能使它们有效逼近；但是WGAN仍然存在梯度消失和梯度***的问题，随后又提出通过梯度惩罚对判别器网络执行1-Lipschitz权重约束来缓解梯度消失以及梯度***的问题。

本发明中，将语义信息输入生成对抗网络得到视觉图像特征，具体的，生成器网络用于生成视觉图像特征，判别器网络用于鉴别视觉图像特征，并得到一个评分，评分的大小用于区分视觉图像特征的真实度。

由于生成对抗网络容易产生模式崩溃的问题，仅通过生成器网络和判别器网络之间相互对抗会使得最终生成的视觉图像特征趋向单一化。因此，为了使生成的视觉图像特征更加多样化，选择在生成对抗网络上增加一个重构网络，语义信息与生成器网络随机生成高斯特征结合，得到视觉图像特征，视觉图像特征中包括虚拟语义信息，重构网络将虚拟语义信息与语义信息进行对比并计算差异，以得到多样化的视觉图像特征，以此来限制生成器网络生成更符合属性的图像特征。

同时，在生成对抗网络中加入注意力网络，将视觉图像特征与图片图像特征输入注意力网络后用于定位关键信息，减少视觉图像特征中的干扰信息并且使视觉图像特征带有注意力。

具体为：首先，将视觉图像特征

通过三个不同权重的1*1卷积层，得到三个注意力特征，分别为第一注意力特征、第二注意力特征和第三注意力特征，将第一注意力特征进行转置操作后与第二注意力特征相乘，并输入Softmax函数得到了特征图β，特征图β的表达式为：

其中，N为视觉图像特征的数量，s_i的计算公式如下：

s_i＝(W_fx)^T*(W_gx)；

其中，x为图片图像特征，

为视觉图像特征，W_f和W_g分别是第一注意力特征和第二注意力特征的权重矩阵，且W_f和W_g通过1*1卷积实现；T为矩阵转置。

最后，将得到的特征图β与第三注意力特征进行矩阵相乘并输入1*1卷积层，得到带有注意力且干扰信息少的视觉图像特征x^a，表达式为：

其中，W_v为第三注意力特征的权重，将N个图像特征乘以特征图β后相加再与权重相乘得到视觉图像特征x^a。

步骤4、计算核心神经网络的损失函数，并对核心神经网络的参数进行调节。

具体的，计算核心神经网络的损失函数包括计算生成对抗网络的损失函数和重构网络的损失函数，并通过损失函数的结果对核心神经网络中的参数进行调节，其中，生成对抗网络的损失函数为：

表示生成的图像特征，L_WGAN表达式中前两项

近似于Wasserstein距离，(其中，Wasserstein距离为代价距离，由一个分布转变为另一个分布所需要的代价)，第三项

是梯度惩罚，λ为惩罚系数；

重构网络的损失函数为：

步骤5、图片图像特征和视觉图像特征输入分类器网络共同训练得到分类器；

分类器网络为Softmax分类器，并通过分类器损失函数调整分类器的参数，分类器的表达式为：

其中，θ为模型参数。

分类器损失函数为：

其中，y是

的真实类别标签，P为真实类别标签y预测

的概率。

将测试集的图片信息输入卷积神经网络Resnet101，得到测试集的图片图像特征，并将测试集的图片图像特征输入分类器中，对测试集的数据进行分类，并确定分类器的分类精确度。

本发明基于计算机视觉分类任务中分类准确度不够高的问题，分析生成对抗网络的网络结构并对生成对抗网络进行改进，分析注意力机制的易用性与加权求和工作机制，提出了一种零样本图像分类方法，该方法融合了注意力机制与生成对抗网络，经过验证，该分类方法对于图像的分类表现优秀，具备较高的分类准确度，且具有泛化能力。

综上所述，本发明通过在生成对抗网络中加入重构网络，使得生成对抗网络生成的视觉图像特征更加多样化，同时，还能使视觉图像特征与语义信息的相关性更加紧密；进一步的，在生成对抗网络中引入了注意力网络，以减少视觉图像特征中的干扰信息，提高了分类准确度。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于生成对抗网络的零样本图像分类方法，其特征在于，包括以下步骤：

步骤1、获取图像数据集；

步骤2、对所述图像数据集进行预处理得到训练集和测试集；

2.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法，其特征在于：所述训练集包括图片信息和语义信息，所述图片信息输入所述卷积神经网络后能够提取得到所述图片图像特征，所述语义信息输入所述生成对抗网络后能够得到所述视觉图像特征。

3.根据权利要求2所述的基于生成对抗网络的零样本图像分类方法，其特征在于：步骤3中的卷积神经网络包括1个通道数为64的7×7卷积层、1个3×3最大池化层以及多个残差卷积块，多个残差卷积块中包括多个通道数不同的卷积层。

4.根据权利要求2所述的基于生成对抗网络的零样本图像分类方法，其特征在于：所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于生成视觉图像特征，所述判别器网络用于鉴别所述视觉图像特征，并得到一个评分，所述评分的大小用于区分所述视觉图像特征的真实度。

5.根据权利要求4所述的基于生成对抗网络的零样本图像分类方法，其特征在于：在所述生成器网络中加入所述重构网络，所述语义信息与所述生成器网络随机生成高斯特征结合，得到所述视觉图像特征，所述视觉图像特征中包括虚拟语义信息，所述重构网络将所述虚拟语义信息与所述语义信息进行对比并计算差异，以得到多样化的视觉图像特征。

6.根据权利要求1所述的基于生成对抗网络的零样本图像分类方法，其特征在于：所述视觉图像特征与所述图片图像特征输入所述注意力网络后用于定位关键信息，使所述视觉图像特征中的干扰信息少且带有注意力。

7.根据权利要求6所述的基于生成对抗网络的零样本图像分类方法，其特征在于，所述注意力网络具体为：所述视觉图像特征通过三个不同权重的卷积层，得到三个注意力特征，分别为第一注意力特征、第二注意力特征和第三注意力特征，对第一注意力特征进行转置操作后与第二注意力特征相乘，并输入Softmax函数得到特征图β，特征图β的表达式为：