CN109213876A

CN109213876A - 基于生成对抗网络的跨模态检索方法

Info

Publication number: CN109213876A
Application number: CN201810871910.5A
Authority: CN
Inventors: 刘立波; 徐峰; 程晓龙; 郑斌; 郭进祥
Original assignee: Ningxia University
Current assignee: Ningxia University
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-01-15
Anticipated expiration: 2038-08-02
Also published as: CN109213876B

Abstract

本发明公开了一种基于生成对抗网络的跨模态检索方法，涉及多媒体数据检索技术领域，所述方法包括以下步骤：步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取；步骤2、建立和训练GAN模型，使得GAN模型可由输入模态的数据生成目标模态的数据；步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；步骤4、将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果；欧式距离越小，排名越靠前的结果与检索目标的相似度越高。与现有跨模态检索模型相比，本发明更充分利用深度神经网络的学习与映射能力，提高了跨模态检索准确度。

Description

基于生成对抗网络的跨模态检索方法

技术领域

本发明涉及多媒体数据检索技术领域，尤其涉及一种基于生成对抗网络的跨模态检索方法。

背景技术

随着互联网技术的发展，越来越多的具有相同语义的媒体数据以多种模态的形式同时出现，例如，新闻报道与其对应的照片，病人的诊断说明与医疗影像。目前人们更需要通过一种模态检索到另一种模态，而不仅是对单一模态的检索。例如，看到一张照片，将照片提交给检索***，检索***可以检索到与这张照片有关的文本信息；患者可以将自己的X光片图像提交给检索***，检索***会返回与该X光片相符的诊断文本。这种使用一种模态的数据检索到其他模态数据的方法，称为跨模态检索。

传统的跨模态检索方法，例如通过文本检索图像，其原理还是根据对图像的文本标注信息的检索实现，本质还是一种单模态的检索。但互联网的发展非常迅速，大量的图像与文本信息不断涌现，这使得对图像的标注费时费力；此外由于人工标注往往不能完全表达图像的内容，从而对检索结果有一定影响。而目前深度学习技术在处理文本以及图像方面取得了良好的效果，为人们从深度学习技术入手，实现新的跨模态检索技术提供了道路。

目前基于深度学习的算法可以分为两种：1)第一类方法将不同的模态数据分别进行抽象化表示，然后再将这些抽象化的结果映射到一个公共的表示空间，以建立各个模态之间的关联，但是此类方法缺少了表示学习和关联学习之间的联系，这使得公共表示空间既包含多种模态的共有信息，又包含单模态数据的特有信息，不利于跨模态检索的进行；2)第二类方法将关联学习与表示学习融合成为整体，但是目前这种方法仍存在检索效果不稳定、检索精度不高等问题。

因此，本领域的技术人员致力于开发一种更好的跨模态检索方法，提高上述检索效果不稳定、检索精度不高的问题。

发明内容

本发明针对跨模态检索的问题，提出了基于生成对抗网络(GenerativeAdversarial Networks，GAN)的跨模态检索方法，利用深度神经网络良好的编码能力，在不同模态数据之间建立转化的桥梁，使得深度模型具有更好的表现效果，并且跨模态检索的准确度更高。

为实现上述目的，本发明提供了一种基于生成对抗网络的跨模态检索方法，其特征在于，所述方法包括以下步骤：

步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取；

步骤2、建立和训练GAN模型，使得GAN模型可由输入模态的数据生成目标模态的数据；

步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；

步骤4、将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果；欧式距离越小，排名越靠前的结果与检索目标的相似度越高。

进一步地，所述步骤1中所述的特征提取包括如下步骤：

步骤1.1、当文本数据为输入模态数据时，图像数据即为目标模态数据，反之亦然；

步骤1.2、针对不同模态的数据采用不同的方法提取特征：图像数据特征通过VGG-16、FCN方法进行提取；文本模态数据通过word2vec方法进行特征提取；对于图像和文本数据，提取后的特征均以向量方式表示。

进一步地，所述步骤2中所述的建立和训练GAN模型包括如下步骤：

步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型；

步骤2.2、使用训练集数据对GAN模型进行训练，得到GAN模型的各种参数。

进一步地，所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤：

步骤2.2.1、初始化判别器的参数θ_d和生成器的参数θ_g；

步骤2.2.2、训练GAN中的判别器：将目标模态数据集送入判别器并进行训练，判别器对输入数据学习以获取其语义信息；

步骤2.2.3、训练GAN中的生成器：将某种模态数据作为输入模态数据，送入生成器，生成器将依据输入模态数据生成目标模态数据并将其送入判别器，判别器将对生成的目标模态数据进行判别，并将结果反馈给生成器；

步骤2.2.4、重复步骤2.2.2和步骤2.2.3，直至判别器与生成器均收敛，获得GAN模型的参数集合θ。

进一步地，所述步骤2.2.2中对判别器的训练包括如下步骤：

步骤2.2.2.1：从训练集的数据P_data(x)中取出输入模态数据的m个训练样本{x¹,x²,...,x^m}；

步骤2.2.2.2：从训练集的数据P_data(x)中取出目标模态数据的m个样本{z¹,z²,...,z^m}；

步骤2.2.2.3：获取生成的数据

步骤2.2.2.4：更新判别器的参数θ_d到最大化：

其中：P_data(x)是用向量表示的训练集，包括输入模态数据和目标模态数据，G代表生成器的分布，D代表判别器的结果。

进一步地，所述步骤2.2.3中对生成器的训练包括如下步骤：

步骤2.2.3.1：从预先设置的训练集的数据P_data(x)中取出不同于步骤2.2.2.2中的m个样本{z¹,z²,...,z^m}；

步骤2.2.3.2：更新生成器的参数θ_g到最小化：

进一步地，所述步骤3中所述的欧式距离的计算如下：输入模态数据进入GAN模型后，得到目标模态数据，该模态数据将与真实的对应模态数据中所有数据进行欧式距离计算，通过欧式距离来反映两个向量间的相似程度。

进一步地，在n维空间中，所述步骤3中的欧式距离d的计算公式为：

其中t_i和y_i为两个n维向量。

本发明具有的有益效果是：充分利用GAN的编码能力，在不同模态的数据之间构建映射桥梁，摆脱了现有深度网络的跨模态检索模型中较为复杂的网络结构；与现有的跨模态检索模型相比，更充分的利用了深度神经网络的学习与映射能力，提高了跨模态检索准确度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1为本发明技术方案的流程图；

图2为本发明中生成对抗网络模型的结构图；

图3为本发明中生成对抗网络模型训练的流程图；

图4为本发明实施例的流程图；

图5为跨模态检索的结果对比图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

为解决跨模态检索问题，本发明提出一种基于GAN的跨模态检索方法，本发明技术方案流程图如图1所示，包括以下步骤：

步骤1：利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取，获得输入模态和目标模态数据的向量表示；

步骤2：建立和训练GAN模型，使得GAN模型可由一种模态的数据(输入模态)生成另一种模态的数据(目标模态)；

步骤3：利用GAN模型生成的目标模态数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；

步骤4：将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果。

图2为本发明中GAN模型的神经网络结构图。GAN模型包含一个生成器(Generator)和一个判别器(Discriminator)，生成器的作用是依据输入模态数据的特征向量表示生成出与之对应的目标模态数据的特征向量表示，判别器的作用是在训练中，保***可以正确生成目标模态数据的特征向量表示，以确保输入模态和输出模态间的映射正确。下面对GAN模型进行详细介绍。

GAN模型：

生成对抗网络(Generative Adversarial Network，GAN)的目的是希望根据输入数据生成目标数据。与一般的编码器不同的是，GAN包含由两个网络，一个是生成器(Generator)，一个是判别器(Discriminator)，二者互相博弈，通过两个网络互相对抗来达到最好的生成效果。通过判别器的判别，不断的迭代对生成器的训练，最后直到判别器无法判断生成的数据是否和真实数据有区别，生成器便达到了拟合状态，此时生成器可以用作是输入数据和输出数据互相转化的桥梁。

以生成图像为例对GAN模型工作原理进行说明：

对于真实图片集的分布P_data(x)，x是一个真实图片，可以用向量表示，该向量的分布为P_data，现需要生成在该分布下的图像。

假设现有的生成器的分布为P_G(x，θ)，该分布由θ控制，θ即是该分布的参数(如果是高斯混合模型，那么θ就是每个高斯分布的平均值和方差)。如果有真实的数据{x¹，x²，…，x^m}，如果想要计算一个似然P_G(xⁱ,θ)，对于这些数据，在生成模型中的似然即为如果我们需要让生成器生成真实的图片概率最大，则需要一个θ^*来最大化L。

要让生成器最大概率生成真实图片，也就是需要找到一个θ令P_G更接近于P_data。这里可以假设P_G(x,θ)是一个神经网络。首先随机产生一个向量z，通过G(z)＝x这个网络，生成图片x，为了比较z和x是否相似，可以取z的一组样本，这组样本符合一个分布，那么通过网络可以生成另一个分布P_G，然后比较其与真实分布P_data的区别。

GAN的目标函数如下：

其中G代表生成器分布，D代表判别器结果，P_data是真实数据，P_G是生成的数据。如果固定G，max V(G,D)就表示P_G和P_data之间的差异，只需要找到一个最好的G，让max V最小，就是两个分布之间的差异最小。

首先固定G，求解最优D：

对于给定的x，优化的最大化D^*

P_data(x)log D(x)+P_G(x)log(1-D(x))

求解D^*：

f(D)＝alog(D)+blog(1-D)

将最优的D^*代入即可得到

其中JSD为KL的对称平滑版本，表示了两个分布之间的差异，该公式表明，固定G，表示两个分布之间的差异，最小值为-2log2，最大值为0。当P_G(x)＝P_data(x)时，G是最优的。

GAN模型的训练：

GAN网络包含一个生成器G和一个判别器D，训练时两个网络交替进行。假设初始的生成器和判别器为G₀和D₀，先训练D₀找到然后固定D₀开始训练G₀，训练过程使用梯度下降法，依此类推，训练D₁，G₁，D₂，G₂，…

训练步骤如图3所示，详细步骤如下：

1)步骤2.1：初始化判别器和生成器的参数θ_d和θ_g；

2)步骤2.2：训练判别器；

3)步骤2.3：训练生成器；

4)步骤2.4：交替执行步骤2)～步骤3)直至算法收敛。

在步骤2.2中，对判别器的训练包括如下步骤：

1)从数据P_data(x)中取出m个训练样本{x¹,x²,...,x^m}；

2)从预先设置的随机向量P_prior(z)中取出m个样本{z¹,z²,...,z^m}；

3)获取生成的数据

4)更新判别器的参数θ_d到最大化：

在步骤2.3中，对生成器的训练包括如下步骤：

1)从预先设置的随机向量P_prior(z)中取出不同于步骤2)中的m个样本{z¹,z²,...,z^m}；

2)更新生成器的参数θ_g到最小化：

通过上述方法即可获得GAN模型的参数集合θ。

为使本发明的目的、技术方案表达的更加清楚明白，下面结合附图及具体实施例对本发明再做进一步详细的说明。

实施例：

假设有m对已知对应关系的文本和图像数据，即训练数据集；未知对应关系的文本和图像数据各n个，即测试数据集；以图像检索文本为例进行说明，检索目标为测试数据集中某个图像s，检索库包含测试集中的k个检索成员，检索成员均为文本模态数据；如图4所示，包含以下4个步骤：

1)步骤401：使用特征提取方法，对训练集和测试集中的文本和图像数据进行特征提取，对于文本数据可以采用word2vec等方法获得其向量表示，对于图像数据可以采用VGG16或FCN等方法提取其特征并获得其向量表示；通过该步骤，可以获得m对已知对应关系的不同的模态数据的特征向量，得到未知对应关系的文本和图象模态数据的特征向量各n个；

2)步骤402：使用训练集中m对已知对应关系的不同模态数据的特征向量对GAN模型进行训练；通过该步骤，GAN即可根据输入的图像或文本模态数据生成近似语义的文本或图像模态数据。

该步骤中对GAN模型训练的具体步骤为：

1)初始化判别器和生成器的参数θ_d和θ_g；

2)训练判别器；

3)训练生成器；

4)交替执行步骤2)～步骤3)直至算法收敛。

在步骤2)中，对判别器的训练包括如下步骤：

①从训练集中取出m个文本模态训练样本{x¹,x²,...,x^m}；

②从训练集中取出m个图像模态样本{z¹,z²,...,z^m}；

③获取生成的数据

④更新判别器的参数θ_d到最大化：

在步骤3)中，对生成器的训练包括如下步骤：

①从训练集中取出不同于步骤2)中的m个图像模态样本{z¹,z²,...,z^m}；

②更新生成器的参数θ_g到最小化：

通过上述方法即可获得GAN模型的参数集合θ。

3)步骤403：对待检索的图像s使用步骤401中得到的s的向量表示，并将该向量表示送入已训练的GAN模型，GAN模型会生成s的目标模态的向量表示，即含有和s相同语义的文本向量表示s′；

4)步骤404：将生成的对应于s的向量表示s′与目标模态数据中，即k个文本模态检索成员中的每个成员的向量表示，计算欧式距离，并按照欧式距离从小到大的顺序生成结果列表；

该步骤中，欧式距离d的计算公式为：

其中s′是待检索目标图像s的向量表示，k_i表示k个文本模态的检索成员，d_i表示s′与k_i的欧式距离。通过计算s′与每个k的欧式距离得到d，再根据d从小到大排列与d_i对应的k_i，便得到检索结果列表；

如图5所示，GAN模型进行跨模态检索的结果与现有的跨模态检索方法的结果进行了对比，评价指标为mAP(mean Average Precise)；mAP是常用的衡量信息检索结果的优劣标准；对于一个指定的查询，返回前R个结果；其mAP的计算公式为：

其中，M代表某图像s检索到的结果数量，p(r)表示在位置r的准确率，rel(r)代表位置r的结果与图像s的相关性(相关性最大为1，最小为0，0为不相关)，评测标准是s与r是否具有相同语义；本发明中，返回检索结果数量为检索结果的前50个。

图5中，i-t表示由图像检索文本，t-i表示由文本检索图像，AVG表示由图像检索文本和由文本检索图像的平均mAP值；从图5可以看出，本发明的方法在Wikipedia数据集和NUS-WIDE-10K数据集中的检索精度均高于其他方法；体现出基于GAN模型的跨模态检索方法更准确的学习到了不同模态间的语义联系，跨模态检索准确度更高。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于生成对抗网络的跨模态检索方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤1中所述的特征提取包括如下步骤：

3.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2中所述的建立和训练GAN模型包括如下步骤：

步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型；

4.如权利要求3所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤：

步骤2.2.1、初始化判别器的参数θ_d和生成器的参数θ_g；

5.如权利要求4所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2.2.2中对判别器的训练包括如下步骤：

步骤2.2.2.3：获取生成的数据

步骤2.2.2.4：更新判别器的参数θ_d到最大化：

6.如权利要求4所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2.2.3中对生成器的训练包括如下步骤：

步骤2.2.3.2：更新生成器的参数θ_g到最小化：

7.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤3中所述的欧式距离的计算如下：输入模态数据进入GAN模型后，得到目标模态数据，该模态数据将与真实的对应模态数据中所有数据进行欧式距离计算，通过欧式距离来反映两个向量间的相似程度。

8.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，在n维空间中，所述步骤3中的欧式距离d的计算公式为：

其中t_i和y_i为两个n维向量。