CN109816032B

CN109816032B - 基于生成式对抗网络的无偏映射零样本分类方法和装置

Info

Publication number: CN109816032B
Application number: CN201910093484.1A
Authority: CN
Inventors: 谭铁牛; 张彰; 王亮; 贾真; 纪文峰
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-09-11
Anticipated expiration: 2039-01-30
Also published as: CN109816032A

Abstract

本发明公开了一种基于生成式对抗网络的无偏映射零样本分类方法和装置，解决零样本图像分类模型的领域映射偏移问题，从而提升了模型的分类准确性。该方法包括以下步骤：接收输入的已知类别图像，训练图像特征提取器、图像语义映射网络和语义特征分类器；提取已知类别图像特征，训练生成式对抗网络；接收输入的级联噪声的未知类别语义特征，利用训练后的生成式对抗网络生成未知类别图像特征；采用未知类别图像特征再次训练图像语义映射网络，得到无偏图像语义映射网络；接收输入的未知类别测试图像；提取未知类别图像特征，采用无偏图像语义映射网络将未知类别图像特征映射到语义空间，采用语义特征分类器对测试图像进行分类，输出分类结果。

Description

基于生成式对抗网络的无偏映射零样本分类方法和装置

技术领域

本发明涉及模式识别、机器学习、计算机视觉领域，特别涉及一种基于生成式对抗网络的无偏映射零样本分类方法和装置。

背景技术

随着计算机技术特别是人工智能领域的发展，图像分类任务受到了越来越多从业人员的关注。图像分类任务是指计算机自动判断输入图像中物体所属于的类别。通常计算机需要在带有类别标注的图像数据库上训练一个分类器，再将这个分类器用于测试图像的分类。通常，图像数据库中图像的收集和标注工作需要耗费大量的人力物力，图像数据库的规模已经逐渐成为制约图像分类算法发展的一个重要因素。而且，在数据库上训练得到的分类器只能对数据库中已有类别进行分类。在训练卷积神经网络(CNN)分类器时，通常使用ImageNet数据库进行训练，其中包含了1000类不同的物体。而人类常见的物体有30000类之多，而且新的物体类别层出不穷。如何使分类器具有对不在数据库中出现的图像类别的分类能力，成为了图像分类任务的重要研究方向。在这其中，零样本学习希望通过在分类过程中引入物体类别的属性信息，帮助分类器对数据库中没有出现的图像类别进行分类，从而使分类器摆脱对图像数据的依赖。

在零样本学习问题中，通常将数据库分为已知类别(seen class)和未知类别(unseen class)。在训练模型时，使用已知类别的图像，而在测试模型时，使用未知类别的图像。即在零样本学习问题中，训练数据和测试数据是来自不同类别的图像，这也是零样本图像分类和普通图像分类的最大区别之处。由于未知类别图像在训练时并不出现，因此需要引入辅助信息(side information)作为图像类别的语义特征，来帮助零样本分类模型学习与未知类别相关的知识。通常可以使用的辅助信息包括但不限于类别属性特征(attribute features)、类别名称的词向量特征(word vectors)和图像的文本描述(sentences)。

目前常用的零样本学习方法，多数为基于映射的零样本学习模型。即模型在训练阶段，在已知类别数据上学习一个从图像空间到辅助信息语义空间的映射函数，在测试阶段使用这个映射函数，将未知类别的测试图像映射到语义空间，在语义空间中，可以根据映射后特征与辅助信息之间的关系来确定测试样本的类别。发明人在研发过程中发现由于在已知类别数据上学习的映射函数被用于未知类别样本的分类测试，已知类别的数据分布和未知类别存在差异，所以基于映射的零样本学习模型存在领域映射偏移(projectiondomain shift)这一固有问题。即在已知类别图像数据上学习的映射，在应用到未知类别的测试样本时，由于数据分布存在差异，被映射的未知类别图像样本在语义空间中会偏离其在语义空间中的类别原型(class prototype)。这限制了零样本学习模型在图像分类任务上，对未知类别图像分类的准确率。

发明内容

为了解决现有基于映射的零样本图像分类方法受领域映射偏移问题的影响，本公开提供了一种基于生成式对抗网络的无偏映射零样本分类方法和装置，通过引入生成式对抗网络以及线性非线性融合图像语义映射网络，并将模型进行端到端协同训练，解决零样本图像分类模型的领域映射偏移问题，从而提升了模型的分类准确性。

本公开所采用的技术方案是：

一种基于生成式对抗网络的无偏映射零样本分类方法，该方法包括以下步骤：

接收输入的已知类别图像，训练图像特征提取器、图像语义映射网络和语义特征分类器；

提取已知类别图像特征，训练生成式对抗网络；

接收输入的级联噪声的未知类别语义特征，利用训练后的生成式对抗网络生成未知类别图像特征；

采用未知类别图像特征再次训练图像语义映射网络，得到无偏图像语义映射网络；

接收输入的未知类别测试图像；

提取未知类别图像特征，采用无偏图像语义映射网络将未知类别图像特征映射到语义空间，采用语义特征分类器对测试图像进行分类，输出分类结果。

通过上述技术方案，通过使用生成式对抗网络的生成器生成未知类别图像特征，训练图像语义映射网络，使映射函数不仅接受已知类别图像的训练，也接受未知类别信息的训练，从而得到无偏的映射函数，大幅度提高零样本图像分类模型的分类准确率。

进一步的，所述训练图像特征提取器、图像语义映射网络和语义特征分类器的步骤包括：

接收输入的已知类别图像，提取已知类别图像特征，构建训练样本；

利用训练样本中已知类别图像特征以及损失函数，分别训练基于卷积神经网络的图像特征提取器、图像语义映射网络和语义特征分类器。

进一步的，所述图像语义映射网络包括两个平行并联的第一全连接神经网络和第二全连接神经网络，所述第一全连接神经网络包括单层全连接神经网络，所述第二全连接神经网络包括两层全连接神经网络，在每层全连接神经网络之后连接一层带泄露整流函数层。

进一步的，所述生成式对抗网络包括生成器网络和判别器网络；

所述生成器网络包括四层全连接层，每个全连接层后分别加入相应的非线性激活层；

所述判别器网络包括三层全连接层，每两个全连接层之间加入相应的非线性激活层。

进一步的，所述训练生成式对抗网络的步骤包括：

接收输入的已知类别图像，作为已知类别训练样本；

采用卷积神经网络特征提取器提取已知类别训练样本的图像特征；

将该已知类别图像特征作为监督信息，并分别采用相应的损失函数训练生成式对抗网络的生成器网络和判别器网络。

通过上述技术方案，使生成式对抗网络中的生成器可以根据图像类别的语义特征生成对应的图像特征。

进一步的，所述图像语义映射网络的训练方法为：

接收输入的级联噪声的未知类别语义特征；

将未知类别的语义特征输入到训练后的生成式对抗网络中进行训练，生成未知类别的图像特征；

采用未知类别的图像特征和损失函数再次训练图像语义映射网络，得到无偏图像语义映射网络。

通过上述技术方案，使得图像语义映射网络具有在所有图像类别上无偏的特性，摆脱领域映射偏移的影响。

进一步的，所述采用无偏图像语义映射网络将未知类别图像特征映射到语义空间的步骤包括：

接收输入的未知类别测试图像，构建未知类别测试样本；

采用图像特征器提取未知类别测试样本的图像特征，得到测试样本的未知类型图像特征；

采用无偏图像语义映射网络将测试样本的未知类别图像特征映射到语义空间；

在语义空间中，采用训练好的语义特征分类器对未知类别测试样本进行分类，得到分类结果。

进一步的，所述分类结果的获取方法为：

采用训练好的语义特征分类器对未知类别测试样本的图像特征映射后的特征点进行分类；

将测试样本的图像特征映射后的特征点乘以未知类别语义特征，响应最大的类别。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于生成式对抗网络的无偏映射零样本分类方法。

一种零样本分类装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于生成式对抗网络的无偏映射零样本分类方法。

通过上述技术方案，本公开的有益效果是：

(1)本公开通过使用生成式对抗网络的生成器生成未知类别图像特征，训练图像语义映射网络，使映射函数不仅接受已知类别图像的训练，也接受未知类别信息的训练，从而得到无偏的映射函数，大幅度提高零样本图像分类模型的分类准确率；

(2)本公开采用线性非线性融合图像语义映射网络，综合了线性映射容易训练、容易取得较好效果，非线性映射网络容量更大、处理信息能力更强的优势，进一步提升了模型效果；

(3)本公开对将基于卷积神经网络的图像特征提取器，图像语义映射网络，语义特征分类器进行统一训练，使图像特征和映射函数得到协同训练，提升了模型性能；

(4)本公开通过引入生成式对抗网络以及线性非线性融合图像语义映射网络，并将模型进行端到端协同训练，解决零样本图像分类模型的领域映射偏移问题，从而提升了模型的分类准确性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是根据一种或多种实施方式的基于生成式对抗网络的无偏映射零样本分类方法流程图；

图2是根据一种或多种实施方式的步骤101训练过程示意图；

图3是根据一种或多种实施方式的步骤102训练过程示意图；

图4是根据一种或多种实施方式的步骤103训练过程示意图；

图5是根据一种或多种实施方式的步骤104对未知类别图像进行分类的示意图；

图6是根据一种或多种实施方式的线性非线性融合图像语义映射网络结构示意图；

图7是根据一种或多种实施方式的判别器网络结构示意图；

图8是根据一种或多种实施方式的生成器网络结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名词解释：

(1)Softmax分类器，是以多项式分布(Multinomial Distribution)为模型建模的，它可以分多种互斥的类别。

(2)Softmax激活函数，为归一化指数函数，其输入是多个变量，常用于多分类神经网络输出。

一种或多种实施例提供一种基于生成式对抗网络的无偏映射零样本分类方法，通过引入生成式对抗网络以及线性非线性融合图像语义映射网络，并将模型进行端到端协同训练，解决零样本图像分类模型的领域映射偏移问题，从而提升了模型的分类准确性。

请参阅附图1，该零样本分类方法包括以下步骤：

S101，接收输入的已知类别图像，采用已知类别图像特征和第一损失函数训练基于卷积神经网络的图像特征提取器、线性非线性融合图像语义映射网络和语义特征分类器。

请参阅附图2，所述步骤101中，接收输入的已知类别图像，作为已知类别训练样本，利用已知类别图像特征和第一损失函数依次训练基于卷积神经网络的图像特征提取器、线性非线性融合图像语义映射网络和语义特征分类器。

具体的，请参阅附图6，所述步骤101中，所述线性非线性融合图像语义映射网络为两个平行并联的全连接神经网络，分别将图像特征线性和非线性映射到语义空间，其中第一全连接神经网络的形式为单层全连接神经网络，用于将图像特征线性映射到语义空间，其中第二全连接神经网络的形式为两层全连接神经网络，全连接层之后连接一层带泄露整流函数层(Leaky ReLU)，用于将图像特征非线性映射到语义空间。

在本实施例中，所述线性与非线性融合的图像语义映射网络的表达式为：

W＝αW_Linear+(1-α)W_Nonlinear

其中，W_Linear为线性映射，W_Nonlinear为非线性映射，α为权重，融合图像语义映射W为二者加权之和，优选地，α取值为0.5。

具体的，所述步骤101中，所述语义特征分类器的结构为：网络权值为类别属性特征且在训练过程中保持固定的全连接层，连接上一个Softmax分类器。

具体的，所述步骤101中，所采用的第一损失函数L_CLS1为带有Softmax激活函数的交叉熵损失，其公式表示为：

其中，

为第i个已知类别的图像特征，y_s为已知图像类别的语义特征，

表示所有已知图像类别，W表示线性非线性融合图像语义映射网络，N为训练样本数量。

S102，利用已知类别图像特征训练生成式对抗网络。

请参阅附图3，所述步骤102中，接收输入的已知类别图像，作为已知类别训练样本，采用卷积神经网络特征提取器提取已知类别训练样本的图像特征，将该已知类别训练样本的图像特征作为监督信息，并采用第二损失函数训练生成式对抗网络的生成器网络和判别器网络，其目的是使生成式对抗网络中的生成器可以根据图像类别的语义特征生成对应的图像特征。

在所述步骤102中，所述生成式对抗网络为但不限于条件梯度惩罚(Wasserstein)生成式对抗网络(ConditionalWGAN-GP网络)，其中包含一个生成器网络和一个判别器网络，生成器根据输入的图像类别的属性特征，生成其对应的图像特征，判别器用于判别输入的特征是真实的图像特征还是生成器生成的图像特征。

在至少一个实施例中，请参阅附图7，所述判别器网络为三层全连接层，每两层网络之间加入一层LeakyReLU非线性激活层；请参阅附图8，生成器网络为四层全连接层，前三层后均加入一层LeakyReLU非线性激活层，最后一层后加入ReLU非线性激活层。

在步骤102中，训练判别器网络的损失函数

为：

其中，

为根据某一已知类别图像语义特征y_s生成对应类别的图像特征，cat(·)为级联操作，z为随机噪声信号，用于保持生成特征的多样性，G(·)和D(·)分别代表生成器网络和判别器网络的相应操作，其中

优选地，λ设置为10。

在步骤102中，训练生成器网络的损失函数

为：

其中，

为第i个生成的已知类别图像特征，

为生成的图像特征样本数量，σ为分类损失项的系数；

为第二损失函数。

在本实施例中，为了使生成器网络生成的特征在语义空间有较好的可分性，该损失函数

在标准WGAN-GP的生成器损失函数后加入了分类损失项。

S103，接收输入的级联噪声的未知类别语义特征，并输入到步骤102得到的生成式对抗网络中，生成未知类别的图像特征，采用未知类别的图像特征和第三损失函数训练步骤101得到的图像语义映射网络，得到无偏图像语义映射网络。

具体的，请参阅附图4，所述步骤103的具体实现方式如下：

S103-1，接收输入的级联噪声的未知类别语义特征；

S103-2，将未知类别的语义特征输入到步骤102得到的生成式对抗网络中进行训练，生成未知类别的图像特征；

S103-4，采用步骤103-2得到的未知类别的图像特征和第三损失函数训练步骤101得到的图像语义映射网络，得到无偏图像语义映射网络。

具体的，所述步骤103-4中，使用步骤103-2得到的多个未知类别的图像特征和第三损失函数训练图像语义映射网络，从而使图像特征训练图像语义映射网络具有在所有图像类别上无偏的特性，摆脱领域映射偏移的影响。

在所述步骤103-4中，所述第三损失函数

同样是带有Softmax激活函数的交叉熵损失，其公式表示为：

其中，

为第i个由生成器网络生成的未知类别图像特征，y_u为未知类别的语义特征，

表示所有的未知图像类别，M为生成的未知类别图像样本的数量。

在所述步骤103-4中，再次训练图像语义映射网络时，特别地，模型将会固定其他部分的参数，只训练图像语义映射网络。

在本实施例中，经过步骤S101至步骤S103的训练，模型的图像语义映射网络经过已知类别图像特征的训练和生成器网络生成的未知类别图像特征的训练，从而得到无偏的图像语义映射网络，便于图像到语义空间的映射。

S104，接收输入的未知类别测试图像，提取未知类别测试图像特征，采用步骤103得到的无偏图像语义映射网络将未知类别测试图像特征映射到语义空间，采用语义特征分类器对测试图像进行分类，输出分类结果。

具体的，请参阅附图5，所述步骤104的具体实现方式如下：

S104-1，接收输入的未知类别测试图像，构建未知类别测试样本；

S104-2，采用步骤101得到的基于卷积神经网络的图像特征器提取未知类别测试样本的图像特征；

S104-3，采用步骤103得到的无偏图像语义映射网络将步骤104-2得到的未知类别图像特征映射到语义空间；

S104-3，在语义空间中，采用步骤101得到的语义特征分类器对未知类别测试样本进行分类；

S104-4，输出分类结果。

在所述步骤104中，使用步骤S101中训练得到的基于卷积神经网络的图像特征提取器，提取未知类别测试样本的图像特征，再使用步骤103训练得到的无偏图像语义映射函数，将其映射到语义空间，在语义空间中，使用语义特征分类器对未知类别测试样本进行分类，计算得到最终的分类结果。

在本实施例中，所述分类结果的计算方法为：

将未知类别测试样本的图像特征映射后的特征点与未知类别语义特征相乘，响应最大的类别即为最终的分类结果。

所述分类结果的表达式为：

其中，W表示线性非线性融合图像语义映射网络，x_u为未知类别测试样本的图像特征，y_u为未知类别语义特征。

本实施例提出的零样本分类方法存在以下有益效果：

一种或多种实施例还提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行以下步骤：

提取已知类别图像特征，训练生成式对抗网络；

接收输入的级联噪声的未知类别语义特征，利用训练后的生成式对抗网络生成未知类别的图像特征；

采用未知类别的图像特征训练图像语义映射网络，得到无偏图像语义映射网络；

接收输入的未知类别测试图像；

一种或多种实施例还提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下步骤：

提取已知类别图像特征，训练生成式对抗网络；

接收输入的未知类别测试图像；

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

工业上的实用性

本公开的零样本分类方法能够应用于零样本学习的用途。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于生成式对抗网络的无偏映射零样本分类方法，其特征是，该方法包括以下步骤：

提取已知类别图像特征，训练生成式对抗网络；

接收输入的未知类别测试图像；

2.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述训练图像特征提取器、图像语义映射网络和语义特征分类器的步骤包括：

3.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述图像语义映射网络包括两个平行并联的第一全连接神经网络和第二全连接神经网络，所述第一全连接神经网络包括单层全连接神经网络，所述第二全连接神经网络包括两层全连接神经网络，在每层全连接神经网络之后连接一层带泄露整流函数层。

4.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述生成式对抗网络包括生成器网络和判别器网络；

5.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述训练生成式对抗网络的步骤包括：

接收输入的已知类别图像，作为已知类别训练样本；

6.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述图像语义映射网络的训练方法为：

接收输入的级联噪声的未知类别语义特征；

7.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述采用无偏图像语义映射网络将未知类别图像特征映射到语义空间的步骤包括：

接收输入的未知类别测试图像，构建未知类别测试样本；

8.根据权利要求1所述的基于生成式对抗网络的无偏映射零样本分类方法，其特征是，所述分类结果的获取方法为：

9.一种计算机可读存储介质，其中存储有多条指令，其特征是，所述指令适于由终端设备的处理器加载并执行权利要求1至8中任一项所述的基于生成式对抗网络的无偏映射零样本分类方法。

10.一种零样本分类装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征是：所述指令适于由处理器加载并执行权利要求1至8中任一项所述的基于生成式对抗网络的无偏映射零样本分类方法。