CN113361646A

CN113361646A - 基于语义信息保留的广义零样本图像识别方法及模型

Info

Publication number: CN113361646A
Application number: CN202110754903.9A
Authority: CN
Inventors: 倪健; 谢海永; 吴曼青
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-07

Abstract

本发明提供了一种基于语义信息保留的广义零样本图像识别方法，包括：在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络，学习构建原始生成对抗网络和对偶生成对抗网络；训练所述对偶对抗多视角语义一致网络；利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别，得到识别结果。本发明将广义零样本图像分类任务借助生成模型转化为监督学习问题，采用对偶对抗的架构，该架构以双向对齐方式有效地保留了语义一致性，并减轻了语义丢失的问题。

Description

基于语义信息保留的广义零样本图像识别方法及模型

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于语义信息保留的细粒度广义零样本图像识别方法及模型。

背景技术

近年来，深度学习技术在各种计算机视觉和机器学习任务中都取得了巨大进步。但是，传统的深度学习方法依赖大量的标记数据，并且面对训练数据有限的问题时会遭受性能下降的困扰。一方面，现实世界中的图像类别具有长尾分布，很多时候获取带标签的数据非常费力且昂贵。另一方面，自然界中会动态出现新的图像类别，这从根本上限制了在没有标签的情况下用于处理这种动态场景的监督学习模型的可伸缩性和适用性。

近几年来，零样本图像识别技术得到了广泛的研究和关注，其目的是在没有相应训练样本的情况下实现对未见过的图像类别进行正确分类。但是，常规的零样本图像识别模型通常在受限的条件下进行评估，其中测试样本和搜索空间仅限于未见类别，为解决传统零样本图像识别的缺点，广义零样本图像识别技术不仅学习可以迁移到未见类别的判别知识，而且可以很好的识别已见类的新数据。

典型的广义零样本图像识别方法将任务视为视觉语义嵌入问题。它们尝试学习从视觉空间到所有类别所驻留的语义空间或潜在中间空间的映射，以便将判别知识从可见类别转移到未见类别。但是，这些基于映射嵌入的广义零样本图像识别模型传递语义知识的能力受到语义损失和异质性差距的限制。同时，由于广义零样本识别模型仅使用来自可见类别的标记数据进行训练，因此高度偏向于预测可见类别。另一种流行策略是使用生成模型生成以语义特征向量为条件的各种视觉特征，从而避免了对未见类别的标记样本的需求，并提高了广义零样本分类的准确性。但是，这些方法的性能受到限制，它们要么仅通过从类别语义到视觉特征的单向对齐来捕获视觉分布信息，要么仅采用一个简单的欧几里得距离作为度量约束来保留生成的高维度视觉特征与真实语义信息之间的一致性。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于语义信息保留的广义零样本图像识别方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种基于语义信息保留的广义零样本图像识别方法，包括：

在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络，学习构建原始生成对抗网络和对偶生成对抗网络；

训练所述对偶对抗多视角语义一致网络；

利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别，得到识别结果。

其中，所述对偶对抗多视角语义一致性网络包括以下两部分：

原始生成对抗网络分别以真实语义特征信息和重建后的伪语义特征信息为输入，生成伪视觉特征；

对偶生成对抗网络以原始生成对抗网络生成的伪视觉特征为输入重建对应的语义信息特征。

其中，所述原始生成对抗网络包括生成器G_SV和判别器D_V，所述对偶生成对抗网络包括生成器G_VS和判别器D_S。

其中，在训练所述对偶对抗多视角语义一致网络的过程中加入以下约束：

设计一个在真实视觉特征上训练好的分类器，最小化伪视觉特征上的分类损失，依次来优化原始生成对抗网络的生成器的生成视觉特征质量。

其中，在所述约束条件下，目标函数表达式为：

其中，E[.]表示期望值运算符，x′＝G_SV(a，z)是生成器G_SV以类语义信息a和随机采样高斯噪音z为输入生成的伪视觉特征，y是x′的类标签，条件概率P(y|x′；θ)通过一个线性softmax分类器来计算，θ表示该线性softmax分类器的参数。

语义一致限制，用于保留一定程度的语义信息，尽可能避免过程中的语义损失。

其中，在所述约束条件下，目标函数表达式为：

其中C是已知类的数量，a_c是类别c的语义信息特征，

表示生成的类别c的语义信息特征的条件分布，a_c′表示生成的类别c的伪语义信息特征，

表示生成的伪语义信息特征的中心。

除了形式上的重建的伪语义信息特征应该与与真实语义信息保持一致性，进一步地，伪语义特征如何被很好地重建的问题可以更直观地转化为：原始生成对抗网络的生成器以重建的伪语义特征作为输入而生成的伪视觉特征质量的评估。

其中，在所述约束条件下，目标函数表达式为：

其中，E[.]表示期望值运算符，C是已知类的数量，x_c表示类别c的真实视觉特征，x_c″表示生成器G_SV以重建的伪语义特征：G_VS(G_SV(ac，z))作为输入而生成的伪视觉特征，

表示真实视觉特征的条件分布，

表示伪视觉特征的条件分布；正则化每个已见类的重建伪视觉特征的均值靠近真实视觉特征分布的均值。

作为本发明的另一方面，提供了一种基于语义信息保留的广义零样本图像识别模型，包括：

构建网络模块，在广义零样本学习的统一框架中构建对偶对抗多视角语义一致网络，学习构建原始生成对抗网络和对偶生成对抗网络；

训练模块，用于训练所述对偶对抗多视角语义一致网络；

测试模块，利用训练好的所述对偶对抗多视角语义一致网络对来源于任意域的视觉图像进行识别，得到识别结果。

基于上述技术方案可知，本发明的基于语义信息保留的广义零样本图像识别方法相对于现有技术至少具有如下有益效果之一或其中的一部分：

1)将广义零样本图像分类任务借助生成模型转化为监督学习问题，采用对偶对抗的架构，该架构以双向对齐方式有效地保留了语义一致性，并减轻了语义丢失的问题。

2)通过结合分类损失约束和多视角语义一致性对抗损失约束，本发明的模型生成具有类间可辨别性和高度语义区分性质的高质量视觉特征，这对于广义零样本图像分类任务中使用的生成方法至关重要。

3)通过保留语义一致性，减少语义损失，本发明提出的对偶对抗多视角语义一致网络高效解决了广义零样本图像分类中的域偏移和语义损失问题，在四个细粒度图像数据集上都达到了最好的结果。

附图说明

图1为本发明实施例提供的广义零样本图像分类示意图；

图2为本发明实施例提供的对偶对抗多视角语义一致分类网络的框架图。

具体实施方式

本发明的目的是借助提供的语义信息生成高质量的具有辨别性的视觉特征，将复杂困难的广义零样本问题转化成传统的监督学习问题。我们基于生成对抗网络(GAN)，利用对偶结构提出对偶对抗多视角语义一致保留网络，分别用于生成高质量视觉特征并进行相应的语义特征重构。

本发明实施例提供一种细粒度图像广义零样本识别方法，包括：

构建对偶对抗多视角语义一致网络，利用获取的源域数据集中的视觉图像特征与对应的语义属性特征，以及目标域数据集中包含的语义属性特征来训练所述的对偶对抗语义一致网络，使其能将视觉图像表示与其对应的语义表达特征做正确的配对；

源域数据集包括：一系列视觉图像特征、以及对应的语义属性特征与类别标签，其中视觉图像的类别标签为视觉图像在现实世界的类别，语义属性特征为一组向量，其编码的内容为图像的属性描述(比如物体的条纹，尺寸，色彩等)。

在测试阶段，利用训练好的对偶对抗多视角语义一致网络对来源于任意域的视觉图像特征进行识别，得到识别结果(也即对应的类别标签)。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

一、原理介绍

本发明实施例中，基于对偶对抗多视角语义一致的广义零样本图像分类技术，来充分地挖掘两个域的语义信息的同时生成高质量的辨别性视觉表达。如图1所示，传统的零样本分类测试，测试数据的标签类别只包含网络模型训练阶段未参与训练的未见类别数据，做了刻意的选择分离。而广义零样本图像分类测试类别同时包含已见类别和未见类别，在现实应用中，图像分类***无法提前获知新图像是否属于已见或未见类。因此，从实践的角度来看，广义零样本图像识别更具普遍性和挑战性。

对偶对抗多视角语义一致网络的两个主要组成部分：原始生成对抗网络(PrimalGAN)和对偶生成对抗网络(Dual GAN)。

如图2所示，首先，该网络通过分类损失函数约束来生成具有类间辨别性的视觉特征，从而确保生成的视觉特征在不同类别之间具有足够的辨别力。其次，该网络鼓励生成具有语义信息一致性保留的视觉特征，并且从形式和内容两个角度来约束生成的视觉特征。从形式的角度来看，对偶GAN将原始GAN生成的伪视觉特征作为输入，重建语义信息特征，再借助语义一致损失函数来约束重构的语义信息与真实语义信息误差最小化，以确保重构的语义信息紧紧围绕真实的对应类语义信息。从内容的角度来看，原始GAN进一步将重建的语义信息特征作为输入来生成伪视觉特征，借助视觉一致损失函数来约束生成的伪视觉特征在数据分布中尽可能接近其各自的真实视觉特征分布。因此，该方法确保了所重建的语义特征与相关的真实语义知识相一致，并且在很大程度上避免了语义损失。这种双向合成过程通过保留视觉语义一致性来共同促进，从而捕获了视觉表示和语义表示的基础数据结构，并增强了向未见类别的知识转移，极大减轻了广义零样本图像识别固有的语义损失问题。

二、具体实现过程

所构建的对偶对抗多视角语义一致网络如图2所示。生成器G_SV、判别器D_V构成原始生成对抗网络；生成器G_VS、判别器D_S构成对偶生成网络。

为了使以上目标达到，本发明实施例中加入如下三项约束来使训练更成功：

1)为了确保G_SV生成具有类间辨别性的伪视觉特征，设计一个在真实视觉特征上训练好的分类器，最小化伪视觉特征上的分类损失，依次来优化G_SV的生成视觉特征质量。目标函数表达式为：

其中，x′＝G_SV(a，z)是生成器G_SV以类语义信息a和随机采样高斯噪音z为输入生成的伪视觉特征，y是x′的类标签，条件概率P(y|x′；θ)通过一个线性softmax分类器来计算，θ表示该线性softmax分类器的参数。

2)除了要求生成的视觉特征具有高度的类间辨别性，还需要其保留一定程度的语义信息，尽可能避免过程中的语义损失。因此提出了语义一致限制。目标函数表达式为：

其中C是已知类的数量，a_c是类别c的语义信息特征，

表示生成的伪语义信息特征的中心，定义为：

其中

表示针对类别c生成的伪语义特征数量。利用语义一致损失函数来约束生成器G_VS重建与真实语义信息特征统计上相匹配的伪语义信息特征。

3)除了形式上的重建的伪语义信息特征应该与与真实语义信息保持一致性，进一步地，伪语义特征如何被很好地重建的问题可以更直观地转化为：生成器G_SV以重建的伪语义特征作为输入而生成的伪视觉特征质量的评估。通过观察发现视觉特征具有较高的类内相似度和相对较低的类间相似度，我们引入了视觉一致性约束，视觉一致性目标函数的表达式为：

x_c表示类别c的真实视觉特征，x_c″表示生成器G_SV以重建的伪语义特征：G_VS(G_SV(a_c，z))作为输入而生成的伪视觉特征，

表示真实视觉特征的条件分布，

表示伪视觉特征的条件分布。伪视觉特征x_c″的中心被定义为：

此外，考虑到真实对象的自然多视角属性，例如通常从不同的视图捕获对象的真实图像，我们提出为每个类别学习多个灵魂样本。通过这样的方式，减轻多视图引起的领域偏移问题。首先，将类别c的真实样例聚类为k个簇，分别为

类别c的灵魂样例

被定义为：

同理，生成的伪视觉的灵魂样例

定义为：

在此基础上，我们鼓励生成的伪视觉特征的灵魂样例应该接近相同类别真实样例的至少一个灵魂样例，可以把上述视觉一致性目标函数的表达式改写为：

在k＝1的情况下，多视角视觉一致性约束退化为普通的视觉一致性约束。

本发明实施例中，对偶对抗多视角语义一致性网络由两部分组成：1)原始GAN分别以真实语义特征信息和重建后的伪语义特征信息为输入，生成伪视觉特征；2)对偶GAN以原始GAN生成的伪视觉特征为输入重建对应的语义信息特征。结合以上目标函数，最终对偶对抗一致性网络训练阶段的目标函数表示如下。

原始GAN的判别器D_V目标函数：

其中

α～U(0，1),λ₁是惩罚项系数，该目标函数前两项近似伪视觉特征分布和真实视觉特征分布的Wasserstein距离，第三项是梯度惩罚项。

原始GAN的生成器G_SV目标函数：

该函数前两项是Wasserstein损失，第三项是分类损失约束，第四项是上面引进的视觉一致限制约束，λ₁，λ₂，λ₃表示不同约束项的权重。

对偶GAN的判别器D_S目标函数：

对偶GAN的生成器G_VS目标函数：

其中，

是真实语义特征a和伪语义特征a′的线性插值，λ₄,λ₅,λ₆是各约束项的权重。

通过上述训练阶段可以对对偶对抗多视角语义一致网络中的参数进行更新，之后，可以直接进行输入视觉图像的分类。

测试阶段，借助训练好的生成模型，我们可以利用从随机高斯噪声中重采样的非结构化分量z和类别语义信息特征a_c作为生成器G_SV的输入，优雅地生成任意类别的视觉特征表示并且可以生成任意数量的视觉特征表示，并且最终将这些视觉特征用于训练任何现成的分类模型。为简单起见，我们采用softmax分类器。对来源于任意域的视觉图像v预测类别标签的预测表示为：

其中，

表示相对应的已见类的类别标签，

表示相对应的未见类的类别标签，θ′表示训练好的分类器参数。

为了说明本发明上述方法的效果，还在以下数据集上进行了验证：

1、Animals with Attribute 1(AWA1)：该数据集包含来自50类的37322张图片，其中23527张图片用于训练，5882张图片作为验证集，和7913张图片用于测试。其中40类作为已见类别，剩下10类作为未见类别。

2、Caltech-UCSD birds(CUB-200)：该数据集包含了来自200个鸟类别的11788张图片。整个数据集被划分为7057张训练图片，1764张验证图像和2967张测试图片。其中150类作为已见类别，剩下50类作为未见类别。

3、SUN：该数据集包含来自717类车的14340张图片，其中10320张图片用于训练，2580张图片作为验证集，和1440张图片用于测试。其中645类作为已见类别，剩下72类作为未见类别。

4、Attribute Pascal and Yahoo(aPY)：该数据集包含来自32类的15339张图片，其中5932张图片用于训练，1483张图片作为验证集，和7924张图片用于测试。其中20类作为已见类别，剩下12类作为未知类别。

经过训练，上述方法在四个广泛使用的细粒度基准数据集中都取得了当前最好的结果。上述方法在AWA1，CUB，SUN和aPY上针对已见类别和未见类别的识别准确率调和平均数分别取得了63.4％，51.6％，40.3％，和47.6％的最高值，比目前最好的方法平均高了3％。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。