CN109299342B

CN109299342B - 一种基于循环生成式对抗网络的跨模态检索方法

Info

Publication number: CN109299342B
Application number: CN201811455802.6A
Authority: CN
Inventors: 倪立昊; 王骞; 邹勤; 李明慧
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2021-12-17
Anticipated expiration: 2038-11-30
Also published as: CN109299342A

Abstract

本发明公开了一种基于循环生成式对抗网络的跨模态检索方法，本方法设计了一种新颖的双通道循环生成式对抗神经网络，并通过训练该神经网络来建立跨模态数据的语义相关性。给定不同模态数据可以在网络中双向流动，各模态数据通过一组生成式对抗网络生成另一模态数据，生成数据又作为下一组生成式对抗网络的输入，从而实现数据的双向循环生成，网络持续不断地学习到跨模态数据间的语义关系。为了提高检索的效率，本方法还利用阈值函数和近似函数将生成器中间层的结果近似为对应的二进制哈希码，并设计了多种约束条件来保证同模态、同类数据的相似性和跨模态、类间数据的差异性，从而进一步提高了检索的准确性和稳定性。

Description

一种基于循环生成式对抗网络的跨模态检索方法

技术领域

本发明属于多媒体信息检索技术领域，具体涉及一种基于循环生成式对抗网络的跨模态检索方法。

技术背景

随着互联网时代的到来，人们可以随时随地接触到包括图片、视频、文本、音频等多种模态的海量信息，如何从这些海量信息中获取到自己需要的内容成为互联网用户关心的重点，用户常常依赖于谷歌、百度、必应等检索引擎提供的精准检索服务。然而传统的互联网检索服务大部分还停留在单模态检索的程度，针对跨模态数据的检索应用较少，检索的效率、准确性、稳定性都有待提高，并且大部分都依赖于现有的数据标签，无法做到无标签数据的跨模态检索。因此，研究新型跨模态检索方法具有很强的现实意义和实用价值，其关键在于通过建立多模态异构数据间的语义关系来直接检索相似的其他模态数据，在无需标注所有的模态数据的情况下实现跨模态数据间的直接检索，最终进一步提高检索的性能。

发明内容

本发明针对现有技术的不足，提供了一种基于循环生成式对抗网络的跨模态检索方法，能够有效提交现有跨模态检索技术的性能。

为了实现上述目的，本发明所设计的基于循环生成式对抗网络的跨模态检索方法，其特征在于，包括以下步骤：

设计两个循环模块，所述两个循环模块共用两个具有相同网络结构的生成器，且对生成器中间层的输出数据进行了哈希编码，生成器的目的是通过训练生成尽可能真实的跨模态数据；

其中一个循环模块通过所述的两个生成器实现模态m→模态t→模态m的过程，另一个循环模块也通过所述的两个生成器实现模态t→模态 m→模态t的过程；

在每个循环模块中针对不同模态设计各自的判别器，所述判别器试图对该模态的生成数据和原始数据进行分类，并与生成器进行动态对抗，最终生成器和判别器在给定训练条件下达到动态平衡。

进一步地，针对数据流多模态多类别的特性，在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性；在监督条件下由于类别标签给定，因此采用三元组约束来最小化同类不同模态间数据间的特征距离，最大化既不同类也不同模态的数据间的特征距离。

更进一步地，所述判别器的损失函数具体为：

最后生成的同模态的生成数据与原始数据相比较来得到的循环损失函数为：

其中i表示第i次计算的数据，总共有n个训练样本数据，判别器在训练过程中会不断地朝着减小L^disc的方向迭代学习，D_img和D_txt分别表示两个判别器，(m^ori，t^ori)分别表示模态m和模态t的原始特征向量，(m^cyc，t^cyc)分别表示模态m和模态t通过循环网络生成的特征向量。

再进一步地，所述生成器的损失函数具体为：

其中θ₁是网络的超参数，||*||₂表示求L2距离。

更进一步地，设两个生成器中间层输出的特征向量为m_com和t_com，生成哈希编码的公式为：

m_hash＝sgn(m_com-0.5)

t_hash＝sgn(t_com-0.5)

其中sgn是阈值函数，公式的含义是中间层浮点型特征向量中的每一位浮点数，值大于0.5时对应的hash码位设置为+1，值小于0.5时对应的hash 码位设置为-1。

再进一步地，为了量化特征向量和生成的哈希码间的近似误差，本方法设计了相关的损失函数作为约束，具体使用了哈希码在特征向量条件下的似然函数，以第i个样本的哈希码第j位

和特征向量第j位

为例 (样本既可以是图像也可以是文本)：

其中

是特征向量相关的sigmoid函数：

进一步根据似然函数设计出损失函数来评估特征向量和生成的哈希码之间的近似误差：

其中n为样本总数，d_hash为向量位数。

再进一步地，本发明中对生成器中间层特征向量进行类别约束，从而设计出类别损失函数公式为：

其中

是第i个样本的特征向量

经过小型分类网络得到的样本预测类别，c_i是该样本实际上的类别标签，类别损失函数实际上计算的是两者间的 L2距离。

为了对跨模态的同类数据对进行相似性的约束，本方法将训练图像样本数据与它相似的文本样本数据建立连接，并设计出损失函数对跨模态的同类数据进行约束，损失函数公式如下：

和

分别是生成器G_t→m，G_m→t生成图像和文本公共子空间的特征向量，损失函数计算了语义相似的对应跨模态同类数据间的L2距离。

在有监督的数据训练情况下，由于数据都具有类别标签，因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离，设计的三元损失函数为：

其中m，t分别代表图像和文本数据，α，β代表两种类别标签，*代表是生成数据，i代表第i次计算用的数据；针对非监督的训练情况，本方法设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度，在计算出 kNN矩阵后，对要进行约束的数据建立相似度矩阵，然后在公共子空间对特征向量进行流形约束，设计流形约束损失函数如下：

其中neib，non分别代表邻近和不邻近数据，其他符号含义和之前一样。

进一步地，综合以上的损失函数设计，将有监督训练情况下的生成器损失函数设计为：

非监督训练情况下的生成器损失函数设计为：

θ₂，θ₃，θ₄，θ₅均为网络的权值超参数。整个网络使用RMSProp随机梯度下降优化算法进行训练迭代，迭代公式为：

由于实际过程中判别器梯度下降较快，本方法设计的网络每训练迭代S次生成器才迭代一次判别器，并且使用超参数c^gen，c^disc对网络权重进行修剪，防止网络权重过大。

本发明的优点在于：

本发明通过利用两组生成器和判别器构建的循环生成式对抗网络来更好地建立多模态数据间的语义关系，并设计了多种约束条件来提高检索的准确性和稳定性，采用了二进制哈希码来替代原始特征以提高检索的效率，研究和探索出一种新颖的基于循环生成式对抗网络的跨模态检索方法，具体针对图像和文本间的跨模态检索。

附图说明

图1是本发明实施例的神经网络总体架构图。

图2是本发明实施例的三元组约束示意图。

图3是本发明实施例的流形约束书意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述：

近年来，伴随着人工智能的热潮，深度学***衡。生成式对抗网络被广泛应用在图像生成、语义分割、数据增强等众多领域，能够很好地根据损失函数学习到训练样本的数据分布规律，并生成与训练样本相似的新数据。本方法利用两组生成式对抗网络组成新颖的循环网络，并通过哈希码和多种约束条件提高网络用于多模态检索时的效率、准确性和稳定性。

本发明提供的基于循环生成式对抗网络的跨模态检索方法，主要是设计了一种新型的神经网络，其主要总体结构参见图1。实施例以图像和文本数据间的相互检索为例对本发明的神经网络框架及数据处理流程进行具体的描述，如下：

首先在实施例中，原始二维图像数据实际需要经过初步的处理，本实施例选用深度学习领域流行的19层VGGNet，并将VGGNet的fc7层输出的4096维特征向量作为输入的原始图像特征m^ori，即图像特征维度d_img为 4096。于此同时，输入的原始文本数据也要经过处理变成初步的特征向量，本实施例采用的是常规的词袋(Bag-of-Words)模型来处理文本数据，得到的BoW向量的长度和文本数据以及具体的选用的处理方法有关，为了实施参考起见，本实施例中的BoW向量维度设定为2000维，即文本特征维度d_txt为2000，并将该向量作为输入的原始文本特征t^ori。

步骤1，设计第一组生成式对抗网络，包含了生成器G_m→t和判别器D_txt，根据输入的原始图像-原始文本数据对(m^ori，t^ori)得到生成文本数据t^gen，从而提取出根据图像数据生成文本数据的变换方式，从而得到图像-文本数据间的语义关系。具体实施过程说明如下：

如图1所示，上半部分的网络可以看作第一组生成式对抗网络，主要包含了生成器G_m→t和判别器D_txt，这时输入为原始图像-原始文本数据对 (m^ori，t^ori)。数据在网络中流动，原始图像m^ori通过生成器G_m→t得到生成文本 t^gen，即t^gen＝G_m→t(m^ori)，并希望生成文本t^gen尽量与原始文本t^ori类似。生成器G_m→t由多层一维卷积层构成，其中的特征向量维度变化为d_img→512→d_hash→100→d_txt。d_img表示输入的原始图像特征的维度，在本实施例中为4096；d_hash为将要被用于哈希码生成的中间层特征的维度，其大小由所需的哈希码长度决定，可以是64、128、256等多种；d_txt为网络中输入的原始文本特征的维度，也是生成文本的特征长度，在本实施例中为2000。与此同时判别器D_txt与生成器G_m→t进行动态对抗，尝试区分出原始文本特征t^gen和生成文本特征t^ori。判别器D_txt是全连接层组成的前馈神经网络，其中的特征维度变化为d_txt→512→16。当生成器和判别器在给定训练条件下达到动态平衡时，生成器G_m→t就能很好地提取出根据图像数据生成文本数据的变换方式，从而得到原始图像-生成文本数据间的语义关系。

步骤2，设计第二组生成式对抗网络，包含了生成器G_t→m和判别器D_img，输入为上一步得到的原始图像-生成文本数据对(m^ori，t^gen)，得到循环图像 m^cyc并提取出根据文本数据生成图像数据的变换方式，从而得到文本-图像数据间的语义关系。具体实施过程说明如下：

如图1所示，下半部分的网络可以看作第二组生成式对抗网络，主要包含了生成器G_t→m和判别器D_img，这时输入为原始图像-生成文本数据对 (m^ori，t^gen)。数据在网络中流动，生成文本t^gen通过生成器G_t→m得到循环图像m^cyc，即m^cyc＝G_t→m(t^gen)＝G_t→m(G_m→t(m^ori))，并希望循环图像特征m^cyc和原始图像特征m^ori尽可能地相似。生成器G_t→m由多层一维逆卷积层构成，其中的特征向量维度变化为d_txt→100→d_hash→512→d_img。d_txt为网络中输入的原始文本特征的维度，在本实施例中为2000；d_hash为将要被用于哈希码生成的中间层特征的维度，其大小由所需的哈希码长度决定，可以是64、 128、256等多种，并且要与第一组生成式对抗网络中的哈希码长度相同；d_img表示输入的原始图像特征的维度，也是最后生成的循环图像特征长度，在本实施例中为4096。与此同时判别器D_img与生成器G_t→m进行动态对抗，尝试区分出循环图像特征m^cyc和原始图像特征m^ori。判别器D_img是全连接层组成的前馈神经网络，其中的特征维度变化为d_img→512→100→16。当生成器和判别器在给定训练条件下达到动态平衡时，就能很好地提取出根据文本数据生成图像数据的变换方式，从而得到生成文本-循环图像数据间的语义关系。

步骤3，利用以上两步设计的两组生成式对抗网络，同样可以将数据流动方向反转，最终实现由图像数据生成文本数据的变换方式，从而得到图像-文本数据间的语义关系。即综合前两个步骤，首先利用第二组生成式对抗网络将输入的原始文本特征t^ori生成为生成图像特征m^gen，得到文本-图像数据间的语义关系；再利用第一组生成式对抗网络将生成图像特征m^gen生成为循环文本特征t^cyc，得到图像-文本数据间的语义关系。最终达到了训练时图像数据和文本数据在两组生成式对抗网络中循环流动、生成对抗、不断优化网络的目的，具体实施过程说明如下：

输入数据依然是原始图像-原始文本数据对(m^ori，t^ori)，与上面两步执行的顺序相反，首先利用第二组生成式对抗网络的生成器生成器G_t→m将输入的原始文本特征t^ori生成为生成图像特征G_t→m，即m^gen＝G_t→m(t^ori)，生成器 G_t→m中的特征向量维度变化与之前相同，为d_txt→100→d_hash→512→d_img。与此同时判别器D_img与生成器G_t→m进行动态对抗，尝试区分出原始图像特征 m^ori和生成图像特征m^gen。对抗达到动态平衡后生成器G_t→m就能学***衡后生成器G_m→t就能学习到生成图像-循环文本数据间的语义关系。

通过步骤1、2、3，实施例中的图像数据和文本数据在网络中的双向循环流动通道得以建立，其中一条通道，原始图像特征数据m^ori通过第一组生成式对抗网络得到生产文本特征t^gen，再将t^gen通过第二组生成式对抗网络生成循环图像特征m^cyc；另一条通道，原始文本数据t^ori先通过第二组对抗生成网得到生成图像特征m^gen，再将m^gen通过第一组生成式对抗网络生产循环文本特征t^cyc。这样图像和文本数据就可以在两组网络中双向循环生成，与此同时有着判别器D_img和D_txt参与对抗生成器，以提高网络学习跨模态数据间语义关系的效果。其中判别器D_img和D_txt的损失函数设计为：

其中i表示第i次计算的数据，总共有n个训练样本数据，判别器在训练过程中会不断地朝着减小L^disc的方向迭代学习。双向循环的生成式对抗网络构建完成后，其优势之一就是可以使用最后得到的循环数据与原始数据相比较来得到循环损失函数，同时也是生成器损失函数的重要组成部分：

其中θ₁是网络的超参数，本实施例中为0.001，||*||₂表示求L2距离。

步骤4，为了提高实际运用中跨模态检索的效率，本方法适用阈值函数从两组生成式对抗网络生成器的公共子空间中分别提取出能够表示图像和文本特征的哈希码m^hash和t^hash，并设计了似然函数来评估两种哈希码之间的近似误差。具体实施过程说明如下：

在两组生成式对抗网络中，由于生成器的输入输出分别是不同模态的特征数据，本实例将生成器的中间层当成跨模态数据的公共子空间(如图1 所示)，并在以上步骤中将该层的特征长度设计成需要的哈希码的长度 d_hash。设中间层的特征向量为m_com和t_com，生成的公式为m_hash＝sgn(m_com-0.5) 和t_hash＝sgn(t_com-0.5)，其中sgn是阈值函数，公式的含义是中间层浮点型特征向量中的每一位浮点数，值大于0.5时对应的hash码位设置为+1，值小于0.5时对应的hash码位设置为-1。这样的阈值变换会针对每一个训练样本的特征向量的每一位，每一个训练样本都能到一个与特征向量等长的哈希码。实施例中用哈希码m_hash、t_hash替代公共子空间特征向量m_com、t_com做检索，就可以将原来检索时不同的浮点型特征向量间的距离计算替换为哈希码间的汉明距离计算，极大提高了检索的计算速度。

为了量化特征向量和生成的哈希码间的近似误差，本实施例设计了相关的损失函数作为约束。实例使用了哈希码在特征向量条件下的似然函数，以第i个样本的哈希码第j位

和特征向量第j位

为例(样本既可以是图像也可以是文本)：

其中

是特征向量相关的sigmoid函数：

实施例根据似然函数设计出损失函数来评估特征向量和生成的哈希码之间的近似误差：

其中n为样本总数，d_hash为向量位数。评估哈希码近似误差的损失函数将作为网络的约束条件之一在训练时发挥作用。

步骤5，为了构建效果更好的网络模型，本实施例利用多种约束条件对网络训练时生成的数据特征进行约束，使之保留更多类别特征，以提高检索时的精确度。针对数据流多模态多类别的特性，在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性；在监督条件下由于样本类别标签给定，因此采用三元组约束来最小化同类不同模态间数据间的特征距离，最大化既不同类也不同模态的数据间的特征距离。具体实施过程说明如下：

有监督情况下引入另一个小型分类网络来对生成器公共子空间得到的特征向量进行类别约束。对于有监督的跨模态数据集，即训练用的数据样本带有类别标签时，为了更充分利用数据类别标签，本实施例利用小型分类网络对公共子空间进行类别表示，并设计了类别损失函数以约束公共子空间特征向量的生成，使之不同于其他层向量，携带有更强烈的类别信息，在预测分类时也能被正确分类。类别损失函数公式为：

其中

是第i个样本的特征向量

对跨模态的同类数据对进行相似性的约束。在跨模态的数据中，有很多语义相似的成对训练数据，如训练数据中某个图像数据样本和另一个文本数据样本语义相似度很高，有着相似的类别属性。为了利用这一特性，在本实施例中将训练图像样本数据与它相似的文本样本数据建立连接，并设计出损失函数对跨模态的同类数据进行约束。损失函数公式如下：

和

分别是生成器G_t→m，G_m→t生成图像和文本公共子空间的特征向量，损失函数计算了语义相似的对应跨模态数据的L2距离。

进一步扩展

本实施例同时考虑了对跨模态间同类数据和同模态内同类数据的相似性约束，即语义相似的成对跨模态训练数据和同模态数据的特征向量的距离应该小于语义不相似的其他特征向量。在有监督的训练情况下，由于数据都具有类别标签，因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离。三元组约束的示意如图2所示，不同形状的图标代表不同类别的数据，而不同的纹理代表了数据的模态不同，特征空间中的数据与同模态数据或跨模态中的同一类数据距离相近，与跨模态不同类别的数据距离较远。在实施例中，以生成图像数据

为例 (生成数据的特征标签就是其原始输入数据的类别标签)，首先选取与其同类别标签的文本数据t_α，i，同时随机选取不同类别的文本数据t_β，i，其中α，β代表两种类别标签，*代表是生成数据，i代表第i次计算用的数据，生成图像的三元组约束就是要最小化

t_α，i间的距离，同时最大化

t_β，i。同样的，对于生成文本

其三元组约束和m_α，i，m_β，i有关。因此设计三元组约束损失函数如下：

针对非监督的训练情况，本实施例设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度。由于采用非监督数据训练时，数据不含有类别标签，因此本实施例构造了k-近邻矩阵来保证语义相近的数据被聚合，语义不同的数据被分离。如图3所示，本实施例在计算出kNN矩阵后，对要进行约束的数据建立相似度矩阵，然后在公共子空间对特征向量进行流形约束。以由文本数据t_α得到的生成图像数据

为例，根据t_α的kNN矩阵计算结果，将t_α的k(本实施例中k设置为2)个最邻近的数据在相似度矩阵中记为1，不临近的数据在相似度矩阵中记为0。在文本数据生成得到图像特征向量之后，随机选取相似度矩阵中为1的文本数据对应的生成图像特征向量作为

相似度矩阵中为0的文本数据对应的生成图像特征向量作为

在流行约束中，要最小化

与

间的距离以保证语义相近数据的生成特征向量的相似度高，最大化

与

间的距离来保证不同语义数据的生成特征向量的相似度低。同理对于生成文本数据，也有

来进行流形约束。因此设计流形约束损失函数如下：

综上所述，我们可以得到经各种约束的损失函数构成的生成器损失函数。在有监督的数据训练情况下，生成器损失函数由循环损失函数

哈希码损失函数

三元组约束损失函数

跨模态同类数据损失函数

和类别损失函数

组成，公式为：

其中θ₂，θ₃，θ₄，θ₅分别是网络的可调节超参数，本实施例中分别设为5，5， 0.001，20。在非监督的数据训练情况下，生成器损失函数由循环损失函数

哈希码损失函数

流形约束损失函数

跨模态同类数据损失函数

组成，公式如下：

超参数的值和之前设定的一样。

综合上述5个步骤，设计出判别器损失函数和生成器损失函数后利用常见的极小极大算法迭代最小化网络损失，以实现建立多模态数据间语义关系的目的。本实施例中的极小极大算法使用的是随机梯度下降优化算法，具体使用了更稳定的RMSProp优化算法。由于判别器和生成器相互对抗，因此两者的计算方法是相反的，它们都会在每一轮迭代时对抗对方上一轮的迭代结果，并在这种相互对抗中达到动态平衡。计算方法如下：

由于实际过程中判别器训练得较快，本方法设计的网络每训练迭代S次生成器才迭代一次判别器。在本实施例中网络训练相关超参数S设定为10，网络的学习率μ设为0.0001，每次训练的分批样本数量(batch size)设为64；同时对网络中学习到的权重进行修剪，将每次训练生成器中大于c^gen的权重置为c^gen，判别器中大于c^disc的权重置为c^disc，以免学习到的权重过大。

步骤6，将训练好的神经网络用于跨模态数据搜索，主要是将数据通过生成器公共子空间得到的特征向量压缩为哈希码，再利用不同数据哈希码间的汉明距离来检索。具体实施过程说明如下：

实施例中的图像和文本数据经过如上描述的网络训练学习之后，生成器就得到了跨模态数据间语义关系相关信息的提取方式。实施例此时可以进行跨模态数据的双向检索，首先固定训练完毕的网络中的权重参数，将待检索的图像和文本数据m^test，t^test通过训练完毕的生成器G_m→t，G_t→m得到公共子空间上的特征向量m^com，t^com，再将特征向量生成为哈希码m^hash，t^hash待用。利用图像检索文本时，取出该图像的哈希码

计算其与所有文本哈希码的汉明距离，距离最近的哈希码

代表的文本即是图像→文本跨模态检索的结果；利用文本检索图像时，取出该文本的哈希码

计算其与所有图像哈希码的汉明距离，距离最近的哈希码

代表的图像即是文本→图像跨模态检索的结果。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于循环生成式对抗网络的跨模态检索方法，其特征在于，包括以下步骤：

设计两个循环模块，其中一个循环模块通过两个生成器实现从图像到文本再到图像的过程，另外一个循环模块通过所述两个生成器实现从文本到图像再到文本的过程；两个循环模块共用两个具有相同网络结构的生成器，且对生成器中间层的输出数据进行了哈希编码；

在每个循环模块中设计判别器，所述判别器对同模态的生成数据和原始数据进行分类，并与生成器进行动态对抗，最终生成器和判别器在给定训练条件下达到动态平衡。

2.根据权利要求1所述的基于循环生成式对抗网络的跨模态检索方法，其特征在于：

针对数据流多模态多类别的特性，在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性；在监督条件下由于类别标签给定，因此采用三元组约束来最小化同类不同模态间数据间的特征距离，最大化既不同类也不同模态的数据间的特征距离。

3.根据权利要求2所述的基于循环生成式对抗网络的跨模态检索方法，其特征在于：

所述判别器的损失函数具体为：

其中i表示第i次计算的数据，总共有n个训练样本数据，判别器在训练过程中会不断地朝着减小L^disc的方向迭代学习，D_img和D_txt分别表示两个判别器，(m^ori，t^ori)分别表示原始模态m和原始模态t，m^cyc生成模态m特征，t^cyc生成模态t特征；θ₁是网络的超参数，||*||₂表示求L2距离。

4.根据权利要求3所述的基于循环生成式对抗网络的跨模态检索方法，其特征在于：

设两个生成器的中间层特征向量为m_com和t_com，生成哈希编码的公式为：

m_hash＝sgn(m_com-0.5)

t _hash＝sgn(t _com-0.5)

其中sgn是阈值函数，公式的含义是中间层浮点型特征向量中的每一位浮点数，值大于0.5时对应的hash码位设置为+1，值小于0.5时对应的hash码位设置为-1。

5.根据权利要求4所述的基于循环生成式对抗网络的跨模态检索方法，其特征在于：为了量化特征向量和生成的哈希码间的近似误差，设计了相关的损失函数作为约束，具体使用了哈希码在特征向量条件下的似然函数，样本既可以是图像也可以是文本，第i个样本的哈希码第j位

和特征向量第j位

则：

其中

是特征向量相关的sigmoid函数：

其中n为样本总数，d_hash为向量位数。

6.根据权利要求5所述的基于循环生成式对抗网络的跨模态检索方法，其特征在于：对生成器中间层特征向量进行类别约束，从而设计出类别损失函数公式为：

其中

是第i个样本的特征向量

经过小型分类网络得到的样本预测类别，c_i是该样本实际上的类别标签，类别损失函数实际上计算的是两者间的L2距离；跨模态的同类数据对进行相似性的约束，将训练图像样本数据与它相似的文本样本数据建立连接，并设计出损失函数对跨模态的同类数据进行约束；损失函数公式如下：

和

分别是生成器G_t→m，G_m→t生成图像和文本公共子空间的特征向量，损失函数计算了语义相似的对应跨模态数据的L2距离；在有监督的数据训练情况下，由于数据都具有类别标签，因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离，设计的三元损失函数为：

其中m，t分别代表图像和文本数据，α，β代表两种类别标签，*代表是生成数据，i代表第i次计算用的数据；针对非监督的训练情况，设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度，在计算出kNN矩阵后，对要进行约束的数据建立相似度矩阵，然后在公共子空间对特征向量进行流形约束；设计流形约束损失函数如下：

其中neib，non分别代表邻近和不邻近数据，其他符号含义和之前一样；综合各种函数，在有监督的数据训练情况下生成器损失函数设计为：

在非监督的数据训练情况下生成器损失函数设计为：

θ₂，θ₃，θ₄，θ₅均为网络的权值超参数；整个网络使用RMSProp随机梯度下降优化算法进行训练迭代，迭代公式为：

由于实际过程中判别器梯度下降较快，设计的网络每训练迭代S次生成器才迭代一次判别器，并且使用超参数c^gen，c^disc对网络权重进行修剪，防止网络权重过大。