CN114791958A

CN114791958A - 一种基于变分自编码器的零样本跨模态检索方法

Info

Publication number: CN114791958A
Application number: CN202210463114.4A
Authority: CN
Inventors: 徐行; 王凯; 田加林; 杨阳; 沈复民; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-26
Anticipated expiration: 2042-04-28
Also published as: CN114791958B

Abstract

本发明公开了一种基于变分自编码器的零样本跨模态检索方法，该方法通过基于变分自编码器的零样本跨模态检索模型实现，模型包括特征提取器，分类器，混合变分自编码器及损失函数、多模态解耦变分自编码器及损失函数，特征对齐损失函数和反直觉交叉重构损失函数，本发明通过数据预处理、提取原始特征、对原始特征进行处理、模型参数更新以及模型预测得到不可见类的检索结果。本发明将变分自编码器模型适应性地应用在零样本跨模态检索任务中，引导模型在训练过程中自行学习更加细化的语义嵌入以进行跨模态语义特征对齐，以学习到适合多模态语义特征的子空间分布。同时利用全新的反直觉重构策略加强语义信息保存的效果，实现更好的检索性能。

Description

一种基于变分自编码器的零样本跨模态检索方法

技术领域

本发明属于计算机视觉中的零样本跨模态检索分支，具体涉及一种基于变分自编码器的零样本跨模态检索方法。

背景技术

随着多媒体技术的发展，网络空间中往往充斥着图片、文本、视频、语音、草图等各种模态的信息。因此，在人们日常的工作与生活中，往往不止希望能进行单个模态的信息的检索，还希望能够通过一种模态的信息来检索另一种模态中的信息。跨模态检索任务正是针对这个问题提出的，其目的在于通过模态间相似的语义信息完成不同模态之间的检索。由于不同模态之间存在着显著的差异，因此直接在模态间进行语义的比较是十分困难的。为了解决这个问题，当前方法往往试图将不同模态的数据映射到一个公共子空间，在这个映射过程中尽可能保存其语义信息，并且减小模态间的差异。

当用于训练的类别与用于测试的类别保持一致时，现有的跨模态检索方法在草图-图片检索以及图片-文本检索等情景中都取得了优秀的效果。但是在实际的应用场景下，很多需要进行检索的类别是在训练时没有出现过的，当使用这些方法在这些不可见类上进行测试的时候，检索的效果会大幅度地下降。因此，更加贴近实际应用场景的零样本跨模态检索任务被提出。零样本检索任务不仅要考虑模态之间的差异，同时也要解决可见类与不可见类之间的语义差异。

为了在缩小模态间差异的同时完成可见类与不可见类之间的语义迁移，大部分现有方法在框架中引入了如生成对抗模型或变分自编码器等生成模型，将不同模型的数据映射到一个公共子空间，同时借鉴零样本分类任务的解决思路，引入额外的标签的语义嵌入向量完成语义对齐，在这个过程中语义嵌入成为可见类与不可见类之间进行语义迁移的桥梁。除此以外，还有部分方法从解耦的角度出发，通过各种解耦的方法直接提取出原始数据中的语义信息。

尽管研究者们提出的诸多特征对齐方法已经在大量公开数据集中取得了较好的检索效果，但依旧还存在一些不足。例如，额外的语义嵌入需要领域专家定义的准确类名，需要额外的人力成本。此外，语义嵌入通常是从在线语言学语料库(例如，***)中获取的，使用这种方式直接对类进行语义表示显得较为粗略。前文所述生成模型通常在现有方法中被直接部署为默认架构，而没有针对零样本跨模态检索任务进行特定适配。不仅如此，现有的直接重构与交叉重构方式往往只注重与单一模态中信息的保存，因此学习到的子空间映射特征可能无法完整地保留模态间的相关信息。

综上，当前的零样本检索任务框架、语义迁移方式存在许多改善空间，同时需要更有效的保存语义信息的方法。本发明通过模型自行学习语义嵌入从而完成语义相关特征的学习，最终进行零样本跨模态检索，以及提出反直觉重构并设计相关损失函数以达到提高检索正确率的目的。

发明内容

本发明将变分自编码器模型适应性地应用在零样本跨模态检索任务中，引导模型在训练过程中自行学习更加细化的语义嵌入以进行跨模态语义特征对齐，以学习到适合多模态语义特征的子空间分布。同时利用全新的反直觉重构策略加强语义信息保存的效果，实现更好的检索性能。

本发明是一种基于变分自编码器的零样本跨模态检索方法，该方法通过基于变分自编码器的零样本跨模态检索模型实现，该模型包括两个模态对应的特征提取器、一个分类器、混合变分自编码器及其对应的损失函数、对应于两个模态的两个解耦变分自编码器及其对应的损失函数、特征对齐损失函数和反直觉交叉重构损失函数。其中，对应于两个模态的两个解耦变分自编码器合称为多模态解耦变分自编码器；

其中，所述特征提取器在不同情景的任务上使用不同的设置，对于图像-文本检索任务，使用Doc2Vec模型提取文本特征，使用预训练的VGG-19模型提取图像特征。对于图像-草图检索任务，使用预训练的残差神经网络ResNet-101提取图像、草图这两种图像的原始特征，并在ResNet-101网络的最后一层加入随机初始化的512维的全连接层并进行微调训练，所述残差神经网络ResNet-101获得的特征维度为512维；

所述两个解耦变分自编码器均由语义相关特征编码器、语义无关特征编码器与一个第一解码器构成，两个解耦变分自编码器中所有的编码器与第一解码器都由三个全连接层构成，并在任意两个全连接层之间***Leakey-ReLU层以及Batch-Norm层，语义相关特征编码器和语义无关特征编码器使用对应模态的特征提取器提取的原始特征(即原始特征向量)作为输入，分别输出相应模态数据的语义相关特征向量和语义无关特征向量，并对语义无关特征向量进行规范化，要求语义无关特征向量分布接近标准正态分布，以模态x为例，规范化损失L_KL(x)(即KL损失)定义为

其中h_x，x分别代表模态x的语义无关特征向量以及模态x的原始特征向量，

代表所述语义无关特征编码器提取的语义无关特征向量的实际分布，p(h)为语义无关特征向量的先验分布，在实验中根据经验被预设为标准正态分布；

表示对语义无关特征向量的实际分布及其先验分布进行KL散度的约束。

所述第一解码器使用语义相关特征向量与语义无关特征向量的拼接作为输入，输出对应模态输入的原始特征的重构，并通过损失函数约束使该重构与输入的原始特征保持一致以减少编码过程中的信息损失。以模态x为例，所述重构损失为

其中h_x，z_x分别代表模态x的语义无关特征向量与语义相关特征向量，x代表模态x的原始特征向量，

代表所述语义无关特征编码器和语义相关特征编码器的参数，θ_X表示第一解码器的参数，

表示求期望值，log(·)表示以自然常数为底的对数，

表示模态x的语义无关特征向量和语义相关特征向量的联合分布，

表示第一解码器通过语义无关特征向量和语义相关特征向量重构出的原始特征，

表示对重构出的原始特征进行极大似然估计。上述重构损失与KL损失L_KL(x)构成一个解耦变分自编码器的损失函数：

L_DVAE(x)＝L_KL(x)+L_Rec(x)

所述多模态解耦变分自编码器由针对于两个不同的模态的解耦变分自编码器构成，所述多模态解耦变分自编码器的目标损失定义如下

L_MDVAE(x,y)＝L_DVAE(x)+L_DVAE(y)

其中，x，y分别表示来自两个模态x和y的数据(原始特征向量)。

所述混合变分自编码器由一个混合编码器与一个第二解码器构成，所述混合编码器以所述两个模态的原始特征的向量拼接作为输入，输出包含两个模态公共语义信息的语义嵌入向量，输出语义嵌入向量的维度与语义相关特征向量保持一致。所述混合编码器包含四个全连接层，每两个相邻的全连接层之间***Leakey-ReLU层以及Batch-Norm层，同时将前两个全连接层的输出作为所述分类器的输入，所述分类器由一个全连接层构成，输出分类结果，通过分类损失保证混合变分自编码器编码了语义信息。我们将两个模态中属于相同类别的数据成对构建输入样本对(x,y)，所述分类损失定义如下：

其中l代表模态x或模态y数据的类别标签，

代表所述混合编码器前两个全连接层的参数，并且

代表样本对(x,y)的分类概率，

表示对所有样本得到的分类概率求均值。所述第二解码器由三层全连接层构成，任意两个相邻全连接层之间***Leak ey-ReLU层以及Batch-Norm层，以混合编码器输出的语义嵌入向量作为输入，输出样本对(x,y)的重构。通过L1损失保证混合变分自编码器学习到了足够的信息。将上述分类损失包含在内，混合变分自编码器的损失函数定义如下：

其中λ是一个超参数，用于控制语义信息的学习，下标

表示使用样本对(x,y)提取出语义嵌入h的过程，

表示使用语义h重构出样本对(x,y)的过程

分别表示对所有的重构结果求均值。

所述特征对齐损失函数定义如下

其中

代表所述混合编码器的参数，h_y，y分别代表模态y的语义相关特征向量、模态y的原始特征向量，

代表模态y的语义相关特征编码器的参数，

分别代表通过x和y提取语义相关特征向量的过程。

表示学习到的语义相关特征向量的先验分布，

表示对分布

和

进行KL散度的约束，

表示对分布

和

进行KL散度的约束。

所述反直觉交叉重构损失函数定义如下

其中||·||代表L1损失，

分别代表模态x和y的反直觉重构。

所述反直觉重构定义如下，以模态x为例：

其中D^Y(·)代表所述模态y的第一解码器，z_y，θ_Y分别代表模态y的语义无关特征向量以及第一解码器的参数。

综上，所述基于变分自编码器的零样本跨模态检索模型的损失函数为

L＝L_MDVAE+L_FVAE+αL_Align+βL_CICR

其中α，β为预设的超参数，用于调整不同损失的权重。

一种基于变分自编码器的零样本跨模态检索方法，具体包括如下步骤：

步骤1：数据预处理，选取包括四个图像-文本检索数据集(即两个模态的数据分别为图像与文本的数据集)与两个图像-草图检索数据集(即两个模态的数据分别为图像和草图的数据集)进行实验。具体来讲，对于任一数据集，我们会将数据集的类别划分为可见类与不可见类分别作为训练集与测试集，需要注意的是可见类与不可见类中的类别是没有重合的(各模态中包括可见类与不可见类)。数据预处理过程包含简单的图像缩放以及随机翻转和裁剪的操作，在这里，对于所有图像和草图模态中的图片我们都会将其切割为224×224维的大小并进行随机方向的翻转；

步骤2：对当前实验数据集(步骤1中所述六个数据集中的任意一个检索数据集)中的训练集数据进行处理，使用特定特征提取器提取图像和草图模态中图片的图像原始特征，使用特定特征提取器提取文本模态中的文本原始特征。

步骤3：对提取到的图像原始特征进行处理，即使用多模态解耦变分自编码器对图像原始特征进行解耦。以单模态x为例，首先使用提取到的图像原始特征作为输入，使用所述多模态解耦变分自编码器中模态x对应的解耦变分自编码器中的语义相关特征编码器与语义无关特征编码器分别提取语义相关特征向量h_x与语义无关特征向量z_x，并将h_x和z_x的拼接作为模态x对应解耦变分自编码器的第一解码器的输入，输出模态x图像原始特征的重构

。同时计算模态x对应的解耦变分自编码器的目标损失，定义为：

L_DVAE(x)＝L_KL(x)+L_Rec(x)

其中

其中

表示求期望值、D_KL[·|·]代表KL损失。

除此以外，以样本对(x,y)的拼接作为输入，使用所述混合变分自编码器中的混合编码器提取语义嵌入向量h，并且使用混合编码器前两层的输出作为分类器的输入输出分类概率

利用获取的输出计算分类损失：

同时将语义嵌入h输入到第二解码器中，重构出样本对(x,y)的拼接，计算重构损失。所述重构损失与分类损失均包含于混合变分编码器目标损失中，引入预设的超参数λ用于调整语义信息的学习，最终计算公式为：

使用语义嵌入h以及语义相关特征h_x、h_y计算语义对齐损失，完成语义对齐，所述语义对齐损失(特征对齐损失函数)计算方式如下：

进行反直觉重构，将模态x的语义相关特征向量与模态y的语义无关特征向量进行拼接(h_x,z_y)并作为输入，使用模态y对应解耦变分自编码器的中的第一解码器进行反直觉重构，重构出x的原始特征

计算公式定义如下：

类似地反直觉重构出y的原始特征

并计算反直觉重构损失：

最后将反直觉重构损失、多模态解耦变分自编码器目标损失、混合变分自编码器目标损失、特征对齐损失进行综合，计算出基于变分自编码器的零样本跨模态检索模型目标损失：

L＝L_MDVAE+L_FVAE+αL_Align+βL_CICR

其中α、β为超参数，用于调整不同损失的权重。

步骤4：进行参数更新，根据步骤3所述损失计算方式分别对步骤1中所提到的六个数据集进行训练，对于任意一个数据集而言，首先按照预先设置好的划分方式进行可见类与不可见类的划分，将可见类的数据作为训练集，不可见类作为测试集。在每一轮训练中，随机从两个模态中选择属于同一个类别的数据组成数据对作为整个模型的输入，根据步骤3中损失L的计算方式计算该损失，并使用梯度下降策略进行优化，直到损失函数L收敛得到训练完成的基于变分自编码器的零样本跨模态检索模型。

步骤5：预测测试数据集，得到不可见类的检索结果，使用训练完成的基于变分自编码器的零样本跨模态检索模型在这六个数据集对应的测试集上进行测试。

本发明将变分自编码器在零样本跨模态检索任务上进行了适应性的改变，引入解耦的思路，提出多模态解耦变分自编码器，能够将模态间相同的语义信息从原始特征中解耦出来，并映射到公共子空间之中。本发明提出了令模型自行学习语义嵌入的思路，相比于直接使用标签的语义嵌入，学习到的语义嵌入省去了人力标示的成本，同时对数据中的不同样本进行了更加细化的语义分类，因此可以完成更加优秀的语义对齐和语义迁移。针对传统的重构和交叉重构一定程度上忽略了模态间相同信息的问题，提出反直觉交叉重构，可以更完整地在子空间的映射特征中保存模态间的公共信息，实现更好的检索效果。

附图说明

图1为本发明基于变分自编码器的零样本跨模态检索方法的简化流程图；

图2为本发明基于变分自编码器的零样本跨模态检索模型整体框架示意图；

图3为本发明反直觉重构部分说明图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述，以便相关领域的技术人员能更好地理解本发明。需要特别注意的是，所描述的实施例是本发明一部分实施例，而不是全部的实施例，也非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

由于当前在零样本跨模态任务中普遍采用的以生成模型为框架、以额外的语义嵌入为桥梁来解决模态间差异以及可见类不可见类语义不同的方法存在着耗费人力成本、语义定义不够细化等问题。除此以外，在图3a、图3b中我们展示了普通的单模态重构与交叉重构的方式，通过这两种重构，模型可以保存原始特征中可以用于重构的信息。但是这样的重构方式本身只考虑了单模态内信息的保存，因此并没有完整保存两个模态间交叉信息的能力。基于以上所述问题，本发明将变分自编码器模型适应性地应用在零样本跨模态检索任务中，引导模型在训练过程中自行学习更加细化的语义嵌入以进行跨模态语义特征对齐，以学习到适合多模态语义特征的子空间分布。同时利用全新的反直觉重构策略加强语义信息保存的效果，实现更好的检索性能(如图3c所示)。

本发明提出了一种基于变分自编码器的零样本跨模态检索方法，该方法通过基于变分自编码器的零样本跨模态检索模型实现，如图2所示，以图像-草图检索任务为例，图像以模态x表示，草图以模态y表示，基于变分自编码器的零样本跨模态检索模型由两个模态对应的特征提取器、一个分类器、混合变分自编码器对应于两个模态的两个解耦变分自编码器组成。其中，对应于两个模态的两个解耦变分自编码器合称为多模态解耦变分自编码器；

其中，所述特征提取器在不同情景的任务上使用不同的设置，对于图像-文本检索任务，使用Doc2Vec模型提取文本特征，使用预训练的VGG-19模型提取图像特征。对于图像-草图检索任务，图像、草图这两种模态图片的原始特征均使用预训练的残差神经网络ResNet-101进行提取。与图像-文本任务不同的是，在图像-草图检索任务中，在特征提取网络的最后一层加入了随机初始化的512维的全连接层并进行微调训练，最终获得原始特征维度为512；

如图2所示，所述多模态解耦自变分自编码器由两个解耦变分自编码器组成，以图像模态中的图片为例，对应解耦变分自编码器(即图3中的解耦编码器)由语义相关特征编码器

语义无关特征编码器

与一个解码器D^X构成。在实验过程中，所述多模态解耦自变分自编码器中所有的编码器都由三个全连接层构成，并在任意两个全连接层之间***Leakey-ReLU层以及Batch-Norm层，最终输出为64维。两个编码器使用对应模态的所述特征提取器提取的原始特征作为输入，分别输出该模态数据的语义相关特征和语义无关特征。模型使用KL散度对语义无关特征进行规范化，要求其分布接近标准正态分布，定义为：

其中h_x，x分别代表模态x的语义无关向量以及模态x的特征向量。

所述第一解码器D^X使用语义相关特征与语义无关特征的拼接作为输入，输入维度为128，第一解码器D^X同样由三层全连接层组成，在每两个全连接层直接***Leakey-ReLU层以及Batch-Norm层，最终输出对应模态输入的原始特征的重构。模型通过L2损失函数约束使该重构与原输入保持一致以减少编码过程中的信息损失。以模态x为例，所述重构损失为：

其中h_x，z_x分别代表模态x的语义无关特征与语义相关特征，x代表模态x的特征向量，

代表所述语义无关特征编码器和语义相关特征编码器的参数，θ_X表示第一解码器D^X的参数，

表示求期望值。上述重构损失与KL损失构成一个解耦变分自编码器的目标损失：

L_DVAE(x)＝L_KL(x)+L_Rec(x)

同理，模态y对应解耦变分自编码器的目标损失计算如下：

L_DVAE(y)＝L_KL(y)+L_Rec(y)

两者求和即为所述多模态解耦变分自解码器目标损失：

L_MDVAE(x,y)＝L_DVAE(x)+L_DVAE(y)

所述混合变分自编码器由一个混合编码器E^h与一个混合解码器D^h构成，所述混合编码器以所述两个模态的原始特征的向量的拼接(x,y)作为输入，输出含有公共的语义信息的语义嵌入向量，输出维度与所述语义相关向量保持一致。混合编码器包含四个全连接层，每两个全连接层之间***Leakey-ReLU层以及Batch-Norm层，同时将前两个全连接层的输出作为所述基于变分自编码器的零样本跨模态检索模型中分类器的输入，所述分类器由一个全连接层构成，输出分类结果。通过分类损失保证混合变分自编码器编码了语义信息。所述分类损失定义如下：

其中l代表模态x或模态y的标签，

代表所述混合编码器前两个全连接层的参数，并且

代表样本对(x,y)的分类概率。所述混合解码器由三层全连接层构成，每两个全连接层之间***Leakey-ReLU层以及Batch-Norm层，以混合编码器输出的语义嵌入向量作为输入，输出样本对(x,y)的重构。通过L1损失保证混合变分自编码器学习到了足够的信息。将上述分类损失包含在内，混合变分自编码器目标损失定义如下：

其中λ是一个超参数，用于控制语义信息的学习。

所述特征对齐损失函数定义如下：

其中

代表所述混合编码器的参数，h_y、y分别代表模态y的语义相关特征向量、模态y的实例特征向量，

代表模态y的语义相关特征编码器的参数。

所述反直觉交叉重构损失函数定义如下：

其中||·||代表L1损失，

分别代表模态x和y的反直觉重构。

所述反直觉重构定义如下，以模态x为例，

其中D^Y(·)代表所述模态y的第一解码器，z_y，θ_Y代表模态的语义无关特征向量以及第一解码器的参数。图3c中展示了反直觉重构的方式，与图3b中交叉重构不同的是，反直觉重构不仅使用了语义相关向量与语义无关向量之间的交叉，同时还交换了两个模态的第一解码器(即图3中的解码器)，因此可以更好地促进两个模态数据信息的混合，以更加完整地保存两模态间的交叉信息。

综上，所述基于变分自编码器的零样本跨模态检索模型的损失函数为：

L＝L_MDVAE+L_FVAE+αL_Align+βL_CICR

其中α，β为预设的超参数。

实施例

图1中展示了基于变分自编码器的零样本跨模态检索方法的具体流程，总共包括：

步骤1：数据预处理，对于图像-文本检索任务，选取了四个广泛使用的数据集：Wikipe dia、NUS-WIDE、Pascal-Sentences和PKU-XMediaNet。并将其中类别划分为可见类与不可见类，其中可见类用于对模型进行训练，不可见类用于测试，可见类与不可见类的类别互不相交。

Wikipedia是目前使用最广泛的图像-文本检索数据集，它包含了从Wikipedia网站上收集的2866个图像-文本对，每一对实例中的图像和文本拥有一致的语义。该数据集的实例总共有10个类别，在实验中可见类与不可见类的划分为5：5。

Pascal-Sentences也是使用比较广泛图像-文本检索数据集，它包含来自20个类别的1000对数据。在实验中可见类与不可见类的划分为10：10。

NUS-WIDE包含了10个类别的数据，拥有远远超过Wikipedia和Pascal-Sentences数据集的数据量。它总共包含了71602对数据。在实验中可见类与不可见类的划分为5：5。

PKU-XMediaNet数据集通常在图像-文本检索任务中用来检验模型在大量数据的情况下的工作状况，它总共包含来自200个类别的4000个数据。在实验中可见类与不可见类的划分为100：100。

对于图像-草图检索任务，同样选用了广泛使用的两个基准数据集Sketchy和TU-Berlin。

Sketchy数据集是当前最常使用在草图-图像检索领域的数据集，它包含了来自125个类别的75741张草图与73002张图像。在实验中可见类与不可见类的划分为100：25。

TU-Berlin数据集是一个相比Sketchy数据集更大型的数据集，它拥有250个类别的数据以及204489张图像，但是只包含有20000张草图，这种数据分布的不均对模型的学习的能力提出了极高的要求。在实验中可见类与不可见类的划分为200：30。

数据的预处理过程包含将图像和草图模态中所有图片裁剪为224×224维，并对所有图片进行随机方向的翻转；

步骤2：对预处理后的数据使用特征提取器提取原始特征，对于所有的图像-文本数据集，使用Doc2Vec模型提取文本特征，维度为300维。并且使用预训练的VGG-19模型提取图像特征，提取的图像特征为4096维。对于TU-Berlin数据集和Sketchy数据集，将图像大小缩放为256×256，特征提取模块选用在ImageNet数据集上预训练的残差神经网络ResNet-101提取图像的原始特征，在网络的最后一层加入随机初始化的512维的全连接层并在TU-Berlin数据集或Sketchy数据集上进行微调训练，最终获得的特征维度为512维；

在训练中，所有数据集均使用一批64个样本对的方式训练，因此训练时四个图像-文本数据集的特征维度为(64×4096,64×300)，所有的图像-草图数据集特征维度为(64×512,64×512)，除TU-Berlin以外，每个数据集上都训练20轮，由于TU-Berlin规模较大，总共需要训练40轮。

步骤3：使用所述基于变分自编码器的零样本跨模态检索模型对原始特征进行处理，分别提取两个模态的语义相关特征与语义无关特征，提取语义嵌入特征，进行重构与反直觉重构。

使用多模态解耦变分自解码器对特征进行解耦，提取语义相关和语义无关特征。以单模态x为例，首先使用提取到的原始特征作为输入，使用所述模态x对应的解耦变分自编码器中的语义相关特征编码器与语义无关特征编码器分别提取语义相关特征h_x与语义无关特征z_x，将两者的拼接作为第一解码器的输入，输出模态x原始特征的重构

以样本对(x,y)的拼接作为输入，使用所述混合变分自编码器中的混合编码器提取语义嵌入特征h，并且使用混合编码器前两层的输出作为分类器的输入输出分类概率

利用获取的输出计算分类损失：

同时将语义嵌入特征h输入到第二解码器中，重构出样本对(x,y)的拼接，计算重构损失。所述重构损失与分类损失均包含于混合变分自编码器目标损失中，引入预设的超参数λ用于调整语义信息的学习，最终计算公式为：

进行反直觉重构，将模态x的语义相关向量与模态y的语义无关向量进行拼接得到(h_x,z_y)并将其作为输入，使用模态y解耦变分自编码器中的第一解码器进行反直觉重构，重构出模态x的原始特征

计算公式定义如下：

步骤4：计算多模态解耦变分自编码器目标损失、语义对齐损失、反直觉重构损失，并更新模型参数

计算模态x对应解耦变分自编码器的目标损失，定义为：

L_DVAE(x)＝L_KL(x)+L_Rec(x)

其中

其中

代表所述语义无关编码器和语义相关编码器的参数，θ_X表示第一解码器的参数，

表示求期望值、D_KL[·|·]代表KL损失。

同理，模态y对应解耦变分自编码器的目标损失计算如下：

L_DVAE(y)＝L_KL(y)+L_Rec(y)

两者求和即为所述多模态解耦变分自解码器目标损失：

L_MDVAE(x,y)＝L_DVAE(x)+L_DVAE(y)

使用语义嵌入h以及语义相关特征h_x，h_y计算语义对齐损失，完成语义对齐，所述语义对齐损失计算方式如下：

计算反直觉重构损失：

最后将反直觉重构损失、多模态解耦变分自编码器目标损失、语义对齐损失进行综合，计算出基于变分自编码器的零样本跨模态检索模型目标损失：

L＝L_MDVAE+L_FVAE+αL_Align+βL_CICR

其中α，β为超参数，用于调整不同损失的权重。

进行参数更新，根据步骤4得到的损失函数L对上述六个数据集中的任意一个数据集进行反复训练，直到训练损失收敛。

步骤5：测试数据集的检索分类结果，将所述基于变分自编码器的零样本跨模态检索模型在所述步骤1中所提到的6种数据集按照预设进行划分，将可见类作为训练集，不可见类作为测试集，并分别将训练集在模型上进行如步骤2-4所述训练，并进行测试集的测试。

测试结果展示在表1和表2。我们使用平均精度均值(Mean Average Precision)即MAP作为主要的评估指标，为了评估检索的准确率还引入查全率(precision)即Prec。

表1：我们的方法与12个现有方法在四个图像-文本检索基准数据集上的比较。最优的和次优的结果分别用加粗与下划线表示。

表2：我们的方法与14个现有方法在两个图像-草图检索基准数据集上的比较。最优的和次优的结果分别用加粗与下划线表示。

其中，表1为本发明实施例在图像-文本检索任务上的测试结果图，从中可以看到：

(1)对于常规方法，深度方法DCCA、DeepSM和ACMR的整体性能仅略优于LGCFL等非深度方法，因为深度方法需要大量特征进行训练，但是，零样本的设置使训练阶段与测试阶段的语义产生不同。

(2)本发明提出的零样本图像-文本检索设计的方法(MDVAE)明显优于传统方法，因为它们考虑了可见类和不可见类之间的知识转移。

(3)基于生成对抗模型的方法比其他方法表现更差，因为它们无法实现稳定的训练和看不见的数据之间的有效对齐。

此外，基于变分自解码器的方法LCALE和AAEGAN逐渐呈现出比基于生成对抗模型的方法更好的性能。

(4)我们的方法(MDVAE)在所有的数据集上都得到了最好的结果，展现出我们方法的优越性。

具体来说，在Wikipedia、Pascal-Sentences和NUS-WIDE数据集上，我们的方法在所有双向检索任务上始终以3.5％、0.9％和2.2％的平均MAP分数改进击败了现有最好的方法AA EGAN。

在最后一个大规模数据集PKU-XMediaNet上，与AAEGAN和LCALE相比，我们的方法仍然取得了显着的进步。

表2为本发明在图像-草图检索任务上的测试结果图，其中ZSL为零样本分类任务中的方法，SBIR为普通图像-草图检索任务方法，ZS-SBIR为零样本草图-图像检索任务方法，从中可以看到：

(1)传统的图像-草图检索方法的整体性能比零样本图像-草图检索方法差很多，因为它们没有考虑可见类和不可见类之间的知识转移。

(2)我们的方法(MDVAE)在两个大规模数据集Sketchy和TU-Berlin上比所有比较方法都具有一致且显着的改进。具体来说，在Sketchy上，我们的方法始终优于最先进的PDFD，并将MAP@all和Prec@100分数分别从0.661和0.781提高到0.741和0.853。在TU-Berlin上，它以7.0％MAP@all和7.8％Prec@100分数的改进优于RPKD。考虑到两个数据集的大规模和大的类内方差，如此一致和大的改进表明了我们的方法在对多实例的数据任务上的优越性，这归因于我们模型特有的自学习的语义嵌入以及反直觉重构。

(3)与其他方法(例如，最新的DSN和RPKD的512维)相比，我们的MDVAE方法在嵌入的低维(大约64维)下表现最好，表明我们的方法在实际检索中的高效率情景。

所有这些一致的改进表明，先进的多模态解耦变分自解码器架构有效地学习了信息丰富的模态不变特征，并且自学习的语义嵌入以及反直觉重构进一步提高了模态不变特征的泛化性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于变分自编码器的零样本跨模态检索方法，其特征在于，该方法通过基于变分自编码器的零样本跨模态检索模型实现，该模型包括两个模态分别对应的两个特征提取器，一个分类器，一个混合变分自编码器及其对应的损失函数，分别对应于两个模态的两个解耦变分自编码器及其对应的两个损失函数，特征对齐损失函数和反直觉交叉重构损失函数，其中，分别对应于两个模态的两个解耦变分自编码器合称为多模态解耦变分自编码器；该方法具体包括以下步骤：

S1)数据预处理

选取N个数据集进行实验，每个数据集由两个不同模态x、y的数据构成，对于其中任一数据集，按照预先设置好的划分方式将该数据集的类别划分为可见类与不可见类，其中可见类作为训练集，不可见类作为测试集，可见类与不可见类中的类别没有重合，该数据集中各模态均包括可见类与不可见类，然后对该数据集中各模态数据进行数据预处理，最终得到N个数据预处理后的数据集；

S2)对任意一个数据预处理后的数据集中的训练集进行处理，使用特征提取器提取训练集中各模态数据的原始特征向量；

S3)使用所述基于变分自编码器的零样本跨模态检索模型对提取到的训练集中各模态数据的原始特征进行处理

首先使用多模态解耦变分自编码器对各模态数据的原始特征向量进行解耦：所述多模态解耦变分自编码器中每个解耦变分自编码器均由语义相关特征编码器、语义无关特征编码器与一个第一解码器构成，两个解耦变分自编码器中所有的编码器与第一解码器都由三个全连接层构成，任意两个全连接层之间***Leakey-ReLU层以及Batch-Norm层，语义相关特征编码器和语义无关特征编码器使用对应模态的特征提取器提取的原始特征向量作为输入，分别输出相应模态数据的语义相关特征向量和语义无关特征向量，并对语义无关特征向量进行规范化，要求语义无关特征向量分布接近标准正态分布，以模态x为例，规范化损失函数L_KL(x)定义为：

代表模态x的语义无关特征编码器提取的语义无关特征向量的实际分布，p(h)为语义无关特征向量的先验分布，在这里被预设为标准正态分布；

表示对语义无关特征向量的实际分布及其先验分布进行KL散度的约束；

第一解码器使用语义相关特征向量与语义无关特征向量的拼接作为输入，输出对应模态输入的原始特征向量的重构，并通过重构损失函数约束使该重构与输入的原始特征向量保持一致以减少编码过程中的信息损失，对于模态x，所述重构损失函数为：

其中z_x代表模态x的语义相关特征向量，

代表模态x的语义无关特征编码器和语义相关特征编码器的参数，θ_X表示模态x的第一解码器的参数，

表示求期望值，log(·)表示以自然常数为底的对数，

表示模态x的第一解码器通过语义无关特征向量和语义相关特征向量重构出的原始特征，

表示对重构出的原始特征进行极大似然估计；上述重构损失函数与规范化损失函数L_KL(x)一起构成一个模态x的解耦变分自编码器的损失函数：

L_DVAE(x)＝L_KL(x)+L_Rec(x)

同理，模态y的解耦变分自编码器的损失函数为：

L_DVAE(y)＝L_KL(y)+L_Rec(y)

其中，y表示模态y的原始特征向量，L_KL(y)表示模态y的规范化损失函数，L_Rec(y)表示模态y的重构损失函数；

所述多模态解耦变分自编码器由针对于两个不同模态x、y的解耦变分自编码器构成，所述多模态解耦变分自编码器的目标损失函数定义如下：

L_MDVAE(x,y)＝L_DVAE(x)+L_DVAE(y)

所述混合变分自编码器由一个混合编码器与一个第二解码器构成，所述混合编码器以所述两个模态的原始特征向量拼接作为输入，输出包含两个模态公共语义信息的语义嵌入向量，输出语义嵌入向量的维度与语义相关特征向量保持一致；所述混合编码器包含四个全连接层，每两个相邻的全连接层之间***Leakey-ReLU层以及Batch-Norm层，同时将前两个全连接层的输出作为所述分类器的输入，所述分类器由一个全连接层构成，输出分类结果，通过分类损失保证混合变分自编码器编码了语义信息，将两个模态中属于相同类别的数据成对构建输入样本对(x,y)，所述分类损失定义如下：

其中l代表模态x或模态y数据的类别标签，

代表所述混合编码器前两个全连接层的参数，并且

代表样本对(x,y)的分类概率，

表示对所有样本得到的分类概率求均值；所述第二解码器由三层全连接层构成，任意两个相邻全连接层之间***Leak ey-ReLU层以及Batch-Norm层，以混合编码器输出的语义嵌入向量作为输入，输出样本对(x,y)的重构，通过L1损失保证混合变分自编码器学习到足够的信息；将上述分类损失包含在内，混合变分自编码器的损失函数定义如下：

其中λ是一个超参数，用于控制语义信息的学习，下标

表示使用样本对(x,y)提取出语义嵌入向量h的过程，

表示使用语义嵌入向量h重构出样本对(x,y)的过程，

表示对所有的重构结果求均值；

所述特征对齐损失函数定义如下：

其中

代表所述混合编码器的参数，h_y代表模态y的语义相关特征向量，

代表模态y的语义相关特征编码器的参数，

分别代表通过x和y提取语义相关特征向量的过程，

表示学习到的语义相关特征向量的先验分布，

表示对分布

和

进行KL散度的约束，

表示对分布

和

进行KL散度的约束；

所述反直觉交叉重构损失函数定义如下：

其中||·||代表L1损失，

分别代表模态x和y的反直觉重构；

所述反直觉重构定义如下，以模态x为例：

其中D^Y(·)代表所述模态y的第一解码器，z_y、θ_Y分别代表模态y的语义无关特征向量以及第一解码器的参数；

L＝L_MDVAE+L_FVAE+αL_Align+βL_CICR

其中α，β为预设的超参数，用于调整不同损失的权重；

S4)对基于变分自编码器的零样本跨模态检索模型进行参数更新

对任意一个数据预处理后的数据集进行训练，在每一轮训练中，随机从该数据预处理后的数据集中的训练集两个模态中选择属于同一个类别的数据组成数据对作为整个基于变分自编码器的零样本跨模态检索模型的输入，根据根据步骤S3)的损失函数计算方式计算损失函数L，并使用梯度下降策略进行优化，直到损失函数L收敛，由此得到训练完成的基于变分自编码器的零样本跨模态检索模型；

S5)预测测试集中的数据

使用训练完成的基于变分自编码器的零样本跨模态检索模型在步骤S4)采用的数据预处理后的数据集对应的测试集上进行测试，得到该数据预处理后的数据集中不可见类的检索结果。

2.根据权利要求1所述的基于变分自编码器的零样本跨模态检索方法，其特征在于，所述步骤S1)中选取的数据集包括图像-文本检索数据集、图像-草图检索数据集，数据预处理是指对于所有图像和草图模态中的图片，将其切割为224×224维的大小并进行随机方向的翻转。

3.根据权利要求2所述的基于变分自编码器的零样本跨模态检索方法，其特征在于，所述步骤S2)中使用特征提取器提取训练集中各模态数据的原始特征向量时，所述特征提取器在不同数据集上使用不同的设置，对于图像-文本检索数据集，使用Doc2Vec模型提取文本原始特征向量，使用预训练的VGG-19模型提取图像原始特征向量；对于图像-草图检索数据集，使用预训练的残差神经网络ResNet-101提取图像、草图这两种模态图片的原始特征向量，并在ResNet-101网络的最后一层加入随机初始化的512维的全连接层并进行微调训练，所述残差神经网络ResNet-101获得的特征维度为512维。

4.根据权利要求3所述的基于变分自编码器的零样本跨模态检索方法，其特征在于，所述N＝6，此时所述步骤S1)中选取的数据集为4个图像-文本检索数据集：Wikipedia、NUS-WIDE、Pascal-Sentences和PKU-XMediaNet，以及2个图像-草图检索数据集：Sketchy和TU-Berlin。