CN110443293B

CN110443293B - 基于双判别生成对抗网络文本重构的零样本图像分类方法

Info

Publication number: CN110443293B
Application number: CN201910675848.7A
Authority: CN
Inventors: 冀中; 严江涛
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-04-07
Anticipated expiration: 2039-07-25
Also published as: CN110443293A

Abstract

一种基于双判别生成对抗网络文本重构的零样本图像分类方法：分别提取视觉特征和文本语义特征；构建图像与文本属性的联合匹配，得到双判别生成网络对抗文本重构模型；利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度，将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播，即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数；测试图像通过图像通道输入提取特征后，通过映射网络映射到公共空间；利用双判别生成网络对抗文本重构模型对样本图像进行分类。本发明能够有效对文本描述和其对应的图像进行最大程度匹配，发掘潜在信息，从而达到零样本分类的目的。

Description

基于双判别生成对抗网络文本重构的零样本图像分类方法

技术领域

本发明涉及一种零样本图像分类方法。特别是涉及一种基于双判别生成对抗网络文本重构的零样本图像分类方法。

背景技术

近年来，得益于海量训练数据的支撑，计算机视觉的物体识别与分类算法取得了突破性的进展。但是也存在一个显著的问题，人工收集以及标注数据一直以来都是一项十分复杂繁琐的工作，因为在给定有限或者没有训练图像的情况下，现有的视觉识别模型很难准确预测出正确的结果，这也是一个亟待解决的问题。零样本分类就是其中一项具有重要理论和实际应用的技术，能够较好地解决以上问题。它是模拟人类推理认识新事物的过程，结合文本语义描述，例如：见过马的类别，通过文本语义描述—斑马是一种能够有黑白相间条纹的马，从而来推断出斑马的类别，达到识别并分类未见数据的目的。最后，该技术通过训练学习所得到的分类器能够较好地对未见类数据进行有效的区分，使得计算机具有通过先验知识进行有效迁移的能力。因此零样本图像分类技术对于如今海量数据的标注与识别有着非常重要的研究价值和现实意义。

发明内容

本发明所要解决的技术问题是，提供一种能够有效对文本描述和其对应的图像进行最大程度匹配，发掘潜在信息，从而达到零样本分类的基于双判别生成对抗网络文本重构的零样本图像分类方法。

本发明所采用的技术方案是：一种基于双判别生成对抗网络文本重构的零样本图像分类方法，包括如下步骤：

1)分别提取视觉特征和文本语义特征；

2)构建图像与文本属性的联合匹配，得到双判别生成网络对抗文本重构模型；

3)利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度，将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播，即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数；

4)测试图像通过图像通道输入提取特征后，通过映射网络映射到公共空间；

5)利用双判别生成网络对抗文本重构模型对样本图像进行分类。

步骤1)所述的提取视觉特征，将训练图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为训练图像视觉特征；所述的提取文本语义特征，是采用word2vec提取文本特征。

步骤2)包括：将文本特征添加10维z～N(0,1)后，得到合成视觉样本，将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间，形成第一类别原型点；将文本特征经过文本重构非线性网络得到关键文本特征，对关键文本特征添加批量随机噪声z～N(0,1)后，送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征，作为第二类别原型点；将合成视觉样本与训练图像视觉特征进行对抗学习，得到双判别生成网络对抗文本重构模型，该模型的损失函数为loss_D2TGAN：

其中，

为双判别生成对抗网络的损失函数；l_cw为重构文本权重损失函数；l_cls为分类损失函数；l_E为特征均值损失函数。

所述的将文本特征经过文本重构非线性网络得到关键文本特征，包括：将文本特征进行均值化，得到平均文本特征T_M，将平均文本特征通过排序函数f(.)进行处理得到排序文本特征，将排序文本特征转置后与平均文本特征相乘后，再通过softmax激活函数得到局部关键文本特征H：

取权重参数为α＝0.9的局部关键文本特征与取权重参数为1-α＝0.1的平均文本特征相加后得到新文本特征t，

t＝(αH+(1-α)T_M ^T)^T (3)

再通过L2正则标准归一化，最后得到关键文本特征T_C：

其中t_i表示新文本特征t中的每个元素，i＝1,2,...,n；norm(t)表示新文本特征t的L2范数，即

所述的重构文本权重损失函数l_cw表示为：

其中λ_cw表示交叉熵S的权重超参数；D_cw为文本重构网络的判别器；C为视觉特征类别的数量；x_C是类别c的视觉特征；

为C类的合成视觉样本的分布；X'_C为C类的合成视觉样本；l_mse为视觉特征与合成视觉样本的均方误差；

所述的分类损失函数l_cls表示为：

其中，G_θ为生成器；T为文本特征；z为随机高斯噪声；x为训练图像的视觉特征；

所述的特征均值损失函数l_E表示为：

其中，

为C类的视觉特征的分布。

步骤4)所述的测试图像通过图像通道输入提取特征，是将测试图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为测试图像视觉特征。

步骤5)所述的利用双判别生成网络对抗文本重构模型对样本图像进行分类

将测试图像输入到利用双判别生成网络对抗文本重构模型中，计算测试图像分别与第一类别原型点及第二类别原型点之间的距离，根据所得到的距离，利用最近邻分类算法对测试图像进行分类，从而实现零样本分类。

本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法，让模型在训练过程中充分学习图像和文本两者之间的内在关系，并引入了交叉熵，将其作为最大熵权重损失函数来约束文本特征的权重分布使得双判别文本语义重构模型能够更好的学习到图像与文本描述之间的内在联系，能针对文本描述有效分类所对应的图像。其优势主要体现在：

本发明能够有效对文本描述和其对应的图像进行最大程度匹配，发掘潜在信息，从而达到零样本分类的目的，对其他深度学习领域，比如少样本和多标签任务有重要的积极作用。本发明能够实现从文本特征到视觉特征的跨模态映射，使得合成的视觉样本特征具有更好表征关键信息的能力。不仅重点突出了文本特征所描述的关键信息，而且能够提高合成样本的多样性以及训练网络的稳定性，深度挖掘文本和图像之间的关联信息，进而提升了合成的视觉特征与原图像的匹配程度，能够在一定程度上跨越语义鸿沟，实现零样本图像分类的任务。

附图说明

图1是本发明基于双判别生成对抗网络文本重构的零样本图像分类方法的流程图；

图2是本发明中文本重构非线性网络示意图。

具体实施方式

下面结合实施例和附图对本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法做出详细说明。

本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法，通过双判别器以及文本重构网络来深度挖掘潜在的文本关联语义信息，为增加与对应图像的匹配度，提高生成文本的多样性，凸显关键信息，给予不同文本不同的特征权重，使得合成样本更具有判别性。

如图1所示，本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法，包括如下步骤：

1)分别提取视觉特征和文本语义特征；

所述的提取视觉特征，将训练图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet1K上预训练后在最后一层池化层下输出2048维作为训练图像视觉特征；所述的提取文本语义特征，是采用word2vec提取文本特征。

包括：将文本特征添加10维z～N(0,1)后，得到合成视觉样本，将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间，形成第一类别原型点；将文本特征经过文本重构非线性网络得到关键文本特征，对关键文本特征添加批量随机噪声z～N(0,1)后，送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征，作为第二类别原型点；将合成视觉样本与训练图像视觉特征进行对抗学习，得到双判别生成网络对抗文本重构模型，该模型的损失函数为loss_D2TGAN：

其中，

为双判别生成对抗网络的损失函数；l_cw为重构文本权重损失函数；l_cls为分类损失函数；l_E为特征均值损失函数。其中，

t＝(αH+(1-α)T_M ^T)^T (3)

再通过L2正则标准归一化，最后得到关键文本特征T_C：

所述的重构文本权重损失函数l_cw表示为：

所述的分类损失函数l_cls表示为：

所述的特征均值损失函数l_E表示为：

其中，

为C类的视觉特征的分布。

所述的测试图像通过图像通道输入提取特征，是将测试图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为测试图像视觉特征。

所述的利用双判别生成网络对抗文本重构模型对样本图像进行分类

Claims

1.一种基于双判别生成对抗网络文本重构的零样本图像分类方法，其特征在于，包括如下步骤：

1)分别提取视觉特征和文本语义特征；

2)构建图像与文本属性的联合匹配，得到双判别生成网络对抗文本重构模型，包括：

将文本特征添加随机高斯噪声10维z～N(0,1)后，得到合成视觉样本，将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间，形成第一类别原型点；将文本特征经过由文本重构的非线性网络得到关键文本特征，对关键文本特征添加批量随机高斯噪声z～N(0,1)后，送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征，作为第二类别原型点；将合成视觉样本与训练图像视觉特征进行对抗学习，得到双判别生成网络对抗文本重构模型，该模型的损失函数为loss_D2TGAN：

其中，

为双判别生成对抗网络的损失函数；l_cw为重构的文本权重损失函数；l_cls为分类损失函数；l_E为特征均值损失函数；

5)利用双判别生成网络对抗文本重构模型对样本图像进行分类，包括：

将测试图像输入到双判别生成网络对抗文本重构模型中，计算测试图像分别与第一类别原型点及第二类别原型点之间的距离，根据所得到的距离，利用最近邻分类算法对测试图像进行分类，从而实现零样本分类。

2.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法，其特征在于，步骤1)所述的提取视觉特征，将训练图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet 1K上预训练后在最后一层池化层下输出的2048维特征，作为训练图像的视觉特征；所述的提取文本语义特征，是采用word2vec提取文本特征。

3.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法，其特征在于，所述的将文本特征经过文本重构非线性网络得到关键文本特征，包括：将文本特征进行均值化，得到平均文本特征T_M，将平均文本特征通过排序函数f(.)进行处理得到排序文本特征，将排序文本特征转置后与平均文本特征相乘后，再通过softmax激活函数得到局部关键文本特征H：

t＝(αH+(1-α)T_M ^T)^T (3)

再通过L2正则标准归一化，最后得到关键文本特征T_C：

4.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法，其特征在于：

所述的重构文本权重损失函数l_cw表示为：

所述的分类损失函数l_cls表示为：

所述的特征均值损失函数l_E表示为：

其中，

为C类的视觉特征的分布。

5.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法，其特征在于，步骤4)所述的测试图像通过图像通道输入提取特征，是将测试图像输入到VGGNet或GoolgeNet或ResNet，在ImageNet 1K上预训练后在最后一层池化层下输出的2048维特征作为测试图像视觉特征。