CN109213876A - 基于生成对抗网络的跨模态检索方法 - Google Patents

基于生成对抗网络的跨模态检索方法 Download PDF

Info

Publication number
CN109213876A
CN109213876A CN201810871910.5A CN201810871910A CN109213876A CN 109213876 A CN109213876 A CN 109213876A CN 201810871910 A CN201810871910 A CN 201810871910A CN 109213876 A CN109213876 A CN 109213876A
Authority
CN
China
Prior art keywords
data
cross
module state
arbiter
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810871910.5A
Other languages
English (en)
Other versions
CN109213876B (zh
Inventor
刘立波
徐峰
程晓龙
郑斌
郭进祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningxia University
Original Assignee
Ningxia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningxia University filed Critical Ningxia University
Priority to CN201810871910.5A priority Critical patent/CN109213876B/zh
Publication of CN109213876A publication Critical patent/CN109213876A/zh
Application granted granted Critical
Publication of CN109213876B publication Critical patent/CN109213876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于生成对抗网络的跨模态检索方法,涉及多媒体数据检索技术领域,所述方法包括以下步骤:步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。与现有跨模态检索模型相比,本发明更充分利用深度神经网络的学习与映射能力,提高了跨模态检索准确度。

Description

基于生成对抗网络的跨模态检索方法
技术领域
本发明涉及多媒体数据检索技术领域,尤其涉及一种基于生成对抗网络的跨模态检索方法。
背景技术
随着互联网技术的发展,越来越多的具有相同语义的媒体数据以多种模态的形式同时出现,例如,新闻报道与其对应的照片,病人的诊断说明与医疗影像。目前人们更需要通过一种模态检索到另一种模态,而不仅是对单一模态的检索。例如,看到一张照片,将照片提交给检索***,检索***可以检索到与这张照片有关的文本信息;患者可以将自己的X光片图像提交给检索***,检索***会返回与该X光片相符的诊断文本。这种使用一种模态的数据检索到其他模态数据的方法,称为跨模态检索。
传统的跨模态检索方法,例如通过文本检索图像,其原理还是根据对图像的文本标注信息的检索实现,本质还是一种单模态的检索。但互联网的发展非常迅速,大量的图像与文本信息不断涌现,这使得对图像的标注费时费力;此外由于人工标注往往不能完全表达图像的内容,从而对检索结果有一定影响。而目前深度学习技术在处理文本以及图像方面取得了良好的效果,为人们从深度学习技术入手,实现新的跨模态检索技术提供了道路。
目前基于深度学习的算法可以分为两种:1)第一类方法将不同的模态数据分别进行抽象化表示,然后再将这些抽象化的结果映射到一个公共的表示空间,以建立各个模态之间的关联,但是此类方法缺少了表示学习和关联学习之间的联系,这使得公共表示空间既包含多种模态的共有信息,又包含单模态数据的特有信息,不利于跨模态检索的进行;2)第二类方法将关联学习与表示学习融合成为整体,但是目前这种方法仍存在检索效果不稳定、检索精度不高等问题。
因此,本领域的技术人员致力于开发一种更好的跨模态检索方法,提高上述检索效果不稳定、检索精度不高的问题。
发明内容
本发明针对跨模态检索的问题,提出了基于生成对抗网络(GenerativeAdversarial Networks,GAN)的跨模态检索方法,利用深度神经网络良好的编码能力,在不同模态数据之间建立转化的桥梁,使得深度模型具有更好的表现效果,并且跨模态检索的准确度更高。
为实现上述目的,本发明提供了一种基于生成对抗网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:
步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;
步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;
步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;
步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。
进一步地,所述步骤1中所述的特征提取包括如下步骤:
步骤1.1、当文本数据为输入模态数据时,图像数据即为目标模态数据,反之亦然;
步骤1.2、针对不同模态的数据采用不同的方法提取特征:图像数据特征通过VGG-16、FCN方法进行提取;文本模态数据通过word2vec方法进行特征提取;对于图像和文本数据,提取后的特征均以向量方式表示。
进一步地,所述步骤2中所述的建立和训练GAN模型包括如下步骤:
步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型;
步骤2.2、使用训练集数据对GAN模型进行训练,得到GAN模型的各种参数。
进一步地,所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤:
步骤2.2.1、初始化判别器的参数θd和生成器的参数θg
步骤2.2.2、训练GAN中的判别器:将目标模态数据集送入判别器并进行训练,判别器对输入数据学习以获取其语义信息;
步骤2.2.3、训练GAN中的生成器:将某种模态数据作为输入模态数据,送入生成器,生成器将依据输入模态数据生成目标模态数据并将其送入判别器,判别器将对生成的目标模态数据进行判别,并将结果反馈给生成器;
步骤2.2.4、重复步骤2.2.2和步骤2.2.3,直至判别器与生成器均收敛,获得GAN模型的参数集合θ。
进一步地,所述步骤2.2.2中对判别器的训练包括如下步骤:
步骤2.2.2.1:从训练集的数据Pdata(x)中取出输入模态数据的m个训练样本{x1,x2,...,xm};
步骤2.2.2.2:从训练集的数据Pdata(x)中取出目标模态数据的m个样本{z1,z2,...,zm};
步骤2.2.2.3:获取生成的数据
步骤2.2.2.4:更新判别器的参数θd到最大化:
其中:Pdata(x)是用向量表示的训练集,包括输入模态数据和目标模态数据,G代表生成器的分布,D代表判别器的结果。
进一步地,所述步骤2.2.3中对生成器的训练包括如下步骤:
步骤2.2.3.1:从预先设置的训练集的数据Pdata(x)中取出不同于步骤2.2.2.2中的m个样本{z1,z2,...,zm};
步骤2.2.3.2:更新生成器的参数θg到最小化:
进一步地,所述步骤3中所述的欧式距离的计算如下:输入模态数据进入GAN模型后,得到目标模态数据,该模态数据将与真实的对应模态数据中所有数据进行欧式距离计算,通过欧式距离来反映两个向量间的相似程度。
进一步地,在n维空间中,所述步骤3中的欧式距离d的计算公式为:
其中ti和yi为两个n维向量。
本发明具有的有益效果是:充分利用GAN的编码能力,在不同模态的数据之间构建映射桥梁,摆脱了现有深度网络的跨模态检索模型中较为复杂的网络结构;与现有的跨模态检索模型相比,更充分的利用了深度神经网络的学习与映射能力,提高了跨模态检索准确度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明技术方案的流程图;
图2为本发明中生成对抗网络模型的结构图;
图3为本发明中生成对抗网络模型训练的流程图;
图4为本发明实施例的流程图;
图5为跨模态检索的结果对比图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
为解决跨模态检索问题,本发明提出一种基于GAN的跨模态检索方法,本发明技术方案流程图如图1所示,包括以下步骤:
步骤1:利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取,获得输入模态和目标模态数据的向量表示;
步骤2:建立和训练GAN模型,使得GAN模型可由一种模态的数据(输入模态)生成另一种模态的数据(目标模态);
步骤3:利用GAN模型生成的目标模态数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;
步骤4:将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果。
图2为本发明中GAN模型的神经网络结构图。GAN模型包含一个生成器(Generator)和一个判别器(Discriminator),生成器的作用是依据输入模态数据的特征向量表示生成出与之对应的目标模态数据的特征向量表示,判别器的作用是在训练中,保***可以正确生成目标模态数据的特征向量表示,以确保输入模态和输出模态间的映射正确。下面对GAN模型进行详细介绍。
GAN模型:
生成对抗网络(Generative Adversarial Network,GAN)的目的是希望根据输入数据生成目标数据。与一般的编码器不同的是,GAN包含由两个网络,一个是生成器(Generator),一个是判别器(Discriminator),二者互相博弈,通过两个网络互相对抗来达到最好的生成效果。通过判别器的判别,不断的迭代对生成器的训练,最后直到判别器无法判断生成的数据是否和真实数据有区别,生成器便达到了拟合状态,此时生成器可以用作是输入数据和输出数据互相转化的桥梁。
以生成图像为例对GAN模型工作原理进行说明:
对于真实图片集的分布Pdata(x),x是一个真实图片,可以用向量表示,该向量的分布为Pdata,现需要生成在该分布下的图像。
假设现有的生成器的分布为PG(x,θ),该分布由θ控制,θ即是该分布的参数(如果是高斯混合模型,那么θ就是每个高斯分布的平均值和方差)。如果有真实的数据{x1,x2,…,xm},如果想要计算一个似然PG(xi,θ),对于这些数据,在生成模型中的似然即为如果我们需要让生成器生成真实的图片概率最大,则需要一个θ*来最大化L。
要让生成器最大概率生成真实图片,也就是需要找到一个θ令PG更接近于Pdata。这里可以假设PG(x,θ)是一个神经网络。首先随机产生一个向量z,通过G(z)=x这个网络,生成图片x,为了比较z和x是否相似,可以取z的一组样本,这组样本符合一个分布,那么通过网络可以生成另一个分布PG,然后比较其与真实分布Pdata的区别。
GAN的目标函数如下:
其中G代表生成器分布,D代表判别器结果,Pdata是真实数据,PG是生成的数据。如果固定G,max V(G,D)就表示PG和Pdata之间的差异,只需要找到一个最好的G,让max V最小,就是两个分布之间的差异最小。
首先固定G,求解最优D:
对于给定的x,优化的最大化D*
Pdata(x)log D(x)+PG(x)log(1-D(x))
求解D*
f(D)=alog(D)+blog(1-D)
将最优的D*代入即可得到
其中JSD为KL的对称平滑版本,表示了两个分布之间的差异,该公式表明,固定G,表示两个分布之间的差异,最小值为-2log2,最大值为0。当PG(x)=Pdata(x)时,G是最优的。
GAN模型的训练:
GAN网络包含一个生成器G和一个判别器D,训练时两个网络交替进行。假设初始的生成器和判别器为G0和D0,先训练D0找到然后固定D0开始训练G0,训练过程使用梯度下降法,依此类推,训练D1,G1,D2,G2,…
训练步骤如图3所示,详细步骤如下:
1)步骤2.1:初始化判别器和生成器的参数θd和θg
2)步骤2.2:训练判别器;
3)步骤2.3:训练生成器;
4)步骤2.4:交替执行步骤2)~步骤3)直至算法收敛。
在步骤2.2中,对判别器的训练包括如下步骤:
1)从数据Pdata(x)中取出m个训练样本{x1,x2,...,xm};
2)从预先设置的随机向量Pprior(z)中取出m个样本{z1,z2,...,zm};
3)获取生成的数据
4)更新判别器的参数θd到最大化:
在步骤2.3中,对生成器的训练包括如下步骤:
1)从预先设置的随机向量Pprior(z)中取出不同于步骤2)中的m个样本{z1,z2,...,zm};
2)更新生成器的参数θg到最小化:
通过上述方法即可获得GAN模型的参数集合θ。
为使本发明的目的、技术方案表达的更加清楚明白,下面结合附图及具体实施例对本发明再做进一步详细的说明。
实施例:
假设有m对已知对应关系的文本和图像数据,即训练数据集;未知对应关系的文本和图像数据各n个,即测试数据集;以图像检索文本为例进行说明,检索目标为测试数据集中某个图像s,检索库包含测试集中的k个检索成员,检索成员均为文本模态数据;如图4所示,包含以下4个步骤:
1)步骤401:使用特征提取方法,对训练集和测试集中的文本和图像数据进行特征提取,对于文本数据可以采用word2vec等方法获得其向量表示,对于图像数据可以采用VGG16或FCN等方法提取其特征并获得其向量表示;通过该步骤,可以获得m对已知对应关系的不同的模态数据的特征向量,得到未知对应关系的文本和图象模态数据的特征向量各n个;
2)步骤402:使用训练集中m对已知对应关系的不同模态数据的特征向量对GAN模型进行训练;通过该步骤,GAN即可根据输入的图像或文本模态数据生成近似语义的文本或图像模态数据。
该步骤中对GAN模型训练的具体步骤为:
1)初始化判别器和生成器的参数θd和θg
2)训练判别器;
3)训练生成器;
4)交替执行步骤2)~步骤3)直至算法收敛。
在步骤2)中,对判别器的训练包括如下步骤:
①从训练集中取出m个文本模态训练样本{x1,x2,...,xm};
②从训练集中取出m个图像模态样本{z1,z2,...,zm};
③获取生成的数据
④更新判别器的参数θd到最大化:
在步骤3)中,对生成器的训练包括如下步骤:
①从训练集中取出不同于步骤2)中的m个图像模态样本{z1,z2,...,zm};
②更新生成器的参数θg到最小化:
通过上述方法即可获得GAN模型的参数集合θ。
3)步骤403:对待检索的图像s使用步骤401中得到的s的向量表示,并将该向量表示送入已训练的GAN模型,GAN模型会生成s的目标模态的向量表示,即含有和s相同语义的文本向量表示s′;
4)步骤404:将生成的对应于s的向量表示s′与目标模态数据中,即k个文本模态检索成员中的每个成员的向量表示,计算欧式距离,并按照欧式距离从小到大的顺序生成结果列表;
该步骤中,欧式距离d的计算公式为:
其中s′是待检索目标图像s的向量表示,ki表示k个文本模态的检索成员,di表示s′与ki的欧式距离。通过计算s′与每个k的欧式距离得到d,再根据d从小到大排列与di对应的ki,便得到检索结果列表;
如图5所示,GAN模型进行跨模态检索的结果与现有的跨模态检索方法的结果进行了对比,评价指标为mAP(mean Average Precise);mAP是常用的衡量信息检索结果的优劣标准;对于一个指定的查询,返回前R个结果;其mAP的计算公式为:
其中,M代表某图像s检索到的结果数量,p(r)表示在位置r的准确率,rel(r)代表位置r的结果与图像s的相关性(相关性最大为1,最小为0,0为不相关),评测标准是s与r是否具有相同语义;本发明中,返回检索结果数量为检索结果的前50个。
图5中,i-t表示由图像检索文本,t-i表示由文本检索图像,AVG表示由图像检索文本和由文本检索图像的平均mAP值;从图5可以看出,本发明的方法在Wikipedia数据集和NUS-WIDE-10K数据集中的检索精度均高于其他方法;体现出基于GAN模型的跨模态检索方法更准确的学习到了不同模态间的语义联系,跨模态检索准确度更高。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于生成对抗网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:
步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;
步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;
步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;
步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。
2.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤1中所述的特征提取包括如下步骤:
步骤1.1、当文本数据为输入模态数据时,图像数据即为目标模态数据,反之亦然;
步骤1.2、针对不同模态的数据采用不同的方法提取特征:图像数据特征通过VGG-16、FCN方法进行提取;文本模态数据通过word2vec方法进行特征提取;对于图像和文本数据,提取后的特征均以向量方式表示。
3.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2中所述的建立和训练GAN模型包括如下步骤:
步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型;
步骤2.2、使用训练集数据对GAN模型进行训练,得到GAN模型的各种参数。
4.如权利要求3所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤:
步骤2.2.1、初始化判别器的参数θd和生成器的参数θg
步骤2.2.2、训练GAN中的判别器:将目标模态数据集送入判别器并进行训练,判别器对输入数据学习以获取其语义信息;
步骤2.2.3、训练GAN中的生成器:将某种模态数据作为输入模态数据,送入生成器,生成器将依据输入模态数据生成目标模态数据并将其送入判别器,判别器将对生成的目标模态数据进行判别,并将结果反馈给生成器;
步骤2.2.4、重复步骤2.2.2和步骤2.2.3,直至判别器与生成器均收敛,获得GAN模型的参数集合θ。
5.如权利要求4所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2.2.2中对判别器的训练包括如下步骤:
步骤2.2.2.1:从训练集的数据Pdata(x)中取出输入模态数据的m个训练样本{x1,x2,...,xm};
步骤2.2.2.2:从训练集的数据Pdata(x)中取出目标模态数据的m个样本{z1,z2,...,zm};
步骤2.2.2.3:获取生成的数据
步骤2.2.2.4:更新判别器的参数θd到最大化:
其中:Pdata(x)是用向量表示的训练集,包括输入模态数据和目标模态数据,G代表生成器的分布,D代表判别器的结果。
6.如权利要求4所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2.2.3中对生成器的训练包括如下步骤:
步骤2.2.3.1:从预先设置的训练集的数据Pdata(x)中取出不同于步骤2.2.2.2中的m个样本{z1,z2,...,zm};
步骤2.2.3.2:更新生成器的参数θg到最小化:
7.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤3中所述的欧式距离的计算如下:输入模态数据进入GAN模型后,得到目标模态数据,该模态数据将与真实的对应模态数据中所有数据进行欧式距离计算,通过欧式距离来反映两个向量间的相似程度。
8.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,在n维空间中,所述步骤3中的欧式距离d的计算公式为:
其中ti和yi为两个n维向量。
CN201810871910.5A 2018-08-02 2018-08-02 基于生成对抗网络的跨模态检索方法 Active CN109213876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810871910.5A CN109213876B (zh) 2018-08-02 2018-08-02 基于生成对抗网络的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810871910.5A CN109213876B (zh) 2018-08-02 2018-08-02 基于生成对抗网络的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN109213876A true CN109213876A (zh) 2019-01-15
CN109213876B CN109213876B (zh) 2022-12-02

Family

ID=64988109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810871910.5A Active CN109213876B (zh) 2018-08-02 2018-08-02 基于生成对抗网络的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN109213876B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783644A (zh) * 2019-01-18 2019-05-21 福州大学 一种基于文本表示学习的跨领域情感分类***及方法
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN110827232A (zh) * 2019-11-14 2020-02-21 四川大学 基于形态特征gan的跨模态mri合成方法
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及***
CN111179207A (zh) * 2019-12-05 2020-05-19 浙江工业大学 一种基于并联生成网络的跨模态医学图像合成方法
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111861949A (zh) * 2020-04-21 2020-10-30 北京联合大学 一种基于生成对抗网络的多曝光图像融合方法及***
CN111985243A (zh) * 2019-05-23 2020-11-24 中移(苏州)软件技术有限公司 情感模型的训练方法、情感分析方法、装置及存储介质
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN117390210A (zh) * 2023-12-07 2024-01-12 山东建筑大学 建筑室内定位方法、定位***、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***
CN102663447A (zh) * 2012-04-28 2012-09-12 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***
CN102663447A (zh) * 2012-04-28 2012-09-12 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIUXIANG GUT等: ""Look, Imagine and Match:Improving Textual-Visual Cross-Modal Retrieval with Generative Models"", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YUXIN PENG等: ""CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning"", 《HTTPS://ARXIV.ORG/ABS/1710.05106V2》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783644A (zh) * 2019-01-18 2019-05-21 福州大学 一种基于文本表示学习的跨领域情感分类***及方法
CN111985243A (zh) * 2019-05-23 2020-11-24 中移(苏州)软件技术有限公司 情感模型的训练方法、情感分析方法、装置及存储介质
CN111985243B (zh) * 2019-05-23 2023-09-08 中移(苏州)软件技术有限公司 情感模型的训练方法、情感分析方法、装置及存储介质
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及***
CN110827232B (zh) * 2019-11-14 2022-07-15 四川大学 基于形态特征gan的跨模态mri合成方法
CN110827232A (zh) * 2019-11-14 2020-02-21 四川大学 基于形态特征gan的跨模态mri合成方法
CN111179207B (zh) * 2019-12-05 2022-04-08 浙江工业大学 一种基于并联生成网络的跨模态医学图像合成方法
CN111179207A (zh) * 2019-12-05 2020-05-19 浙江工业大学 一种基于并联生成网络的跨模态医学图像合成方法
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111861949A (zh) * 2020-04-21 2020-10-30 北京联合大学 一种基于生成对抗网络的多曝光图像融合方法及***
CN111861949B (zh) * 2020-04-21 2023-07-04 北京联合大学 一种基于生成对抗网络的多曝光图像融合方法及***
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
CN113435206A (zh) * 2021-05-26 2021-09-24 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN117390210A (zh) * 2023-12-07 2024-01-12 山东建筑大学 建筑室内定位方法、定位***、存储介质及电子设备

Also Published As

Publication number Publication date
CN109213876B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN109213876A (zh) 基于生成对抗网络的跨模态检索方法
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
Wu et al. Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation
Alfarisy et al. Deep learning based classification for paddy pests & diseases recognition
CN108509463B (zh) 一种问题的应答方法及装置
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN112384948A (zh) 用于图像分割的生成对抗网络
Ahishali et al. Advance warning methodologies for covid-19 using chest x-ray images
WO2019015246A1 (zh) 图像特征获取
KR102265573B1 (ko) 인공지능 기반 입시 수학 학습 커리큘럼 재구성 방법 및 시스템
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
EP3968337A1 (en) Target object attribute prediction method based on machine learning and related device
JP2018022496A (ja) 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器
CN108549860A (zh) 一种基于深度神经网络的牛脸识别方法
CN110163130B (zh) 一种用于手势识别的特征预对齐的随机森林分类***及方法
Zhou et al. Learn fine-grained adaptive loss for multiple anatomical landmark detection in medical images
Heidler et al. A deep active contour model for delineating glacier calving fronts
CN116416334A (zh) 一种基于原型的嵌入网络的场景图生成方法
CN110472088A (zh) 一种基于草图的图像检索方法
Hu et al. An improved multithreshold segmentation algorithm based on graph cuts applicable for irregular image
Zachmann et al. Random forests for tracking on ultrasonic images
Pardede et al. Hyperparameter Search for CT-Scan Classification Using Hyperparameter Tuning in Pre-Trained Model CNN With MLP
Liu et al. A novel adaptive cubic quasi‐Newton optimizer for deep learning based medical image analysis tasks, validated on detection of COVID‐19 and segmentation for COVID‐19 lung infection, liver tumor, and optic disc/cup
Wibowo Performances of Chimpanzee Leader Election Optimization and K-Means in Multilevel Color Image Segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant