CN109299342B - 一种基于循环生成式对抗网络的跨模态检索方法 - Google Patents

一种基于循环生成式对抗网络的跨模态检索方法 Download PDF

Info

Publication number
CN109299342B
CN109299342B CN201811455802.6A CN201811455802A CN109299342B CN 109299342 B CN109299342 B CN 109299342B CN 201811455802 A CN201811455802 A CN 201811455802A CN 109299342 B CN109299342 B CN 109299342B
Authority
CN
China
Prior art keywords
data
network
modal
cross
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811455802.6A
Other languages
English (en)
Other versions
CN109299342A (zh
Inventor
倪立昊
王骞
邹勤
李明慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201811455802.6A priority Critical patent/CN109299342B/zh
Publication of CN109299342A publication Critical patent/CN109299342A/zh
Application granted granted Critical
Publication of CN109299342B publication Critical patent/CN109299342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环生成式对抗网络的跨模态检索方法,本方法设计了一种新颖的双通道循环生成式对抗神经网络,并通过训练该神经网络来建立跨模态数据的语义相关性。给定不同模态数据可以在网络中双向流动,各模态数据通过一组生成式对抗网络生成另一模态数据,生成数据又作为下一组生成式对抗网络的输入,从而实现数据的双向循环生成,网络持续不断地学习到跨模态数据间的语义关系。为了提高检索的效率,本方法还利用阈值函数和近似函数将生成器中间层的结果近似为对应的二进制哈希码,并设计了多种约束条件来保证同模态、同类数据的相似性和跨模态、类间数据的差异性,从而进一步提高了检索的准确性和稳定性。

Description

一种基于循环生成式对抗网络的跨模态检索方法
技术领域
本发明属于多媒体信息检索技术领域,具体涉及一种基于循环生成式对抗网络的跨模态检索方法。
技术背景
随着互联网时代的到来,人们可以随时随地接触到包括图片、视频、文本、音频等多种模态的海量信息,如何从这些海量信息中获取到自己需要的内容成为互联网用户关心的重点,用户常常依赖于谷歌、百度、必应等检索引擎提供的精准检索服务。然而传统的互联网检索服务大部分还停留在单模态检索的程度,针对跨模态数据的检索应用较少,检索的效率、准确性、稳定性都有待提高,并且大部分都依赖于现有的数据标签,无法做到无标签数据的跨模态检索。因此,研究新型跨模态检索方法具有很强的现实意义和实用价值,其关键在于通过建立多模态异构数据间的语义关系来直接检索相似的其他模态数据,在无需标注所有的模态数据的情况下实现跨模态数据间的直接检索,最终进一步提高检索的性能。
发明内容
本发明针对现有技术的不足,提供了一种基于循环生成式对抗网络的跨模态检索方法,能够有效提交现有跨模态检索技术的性能。
为了实现上述目的,本发明所设计的基于循环生成式对抗网络的跨模态检索方法,其特征在于,包括以下步骤:
设计两个循环模块,所述两个循环模块共用两个具有相同网络结构的生成器,且对生成器中间层的输出数据进行了哈希编码,生成器的目的是通过训练生成尽可能真实的跨模态数据;
其中一个循环模块通过所述的两个生成器实现模态m→模态t→模态m的过程,另一个循环模块也通过所述的两个生成器实现模态t→模态 m→模态t的过程;
在每个循环模块中针对不同模态设计各自的判别器,所述判别器试图对该模态的生成数据和原始数据进行分类,并与生成器进行动态对抗,最终生成器和判别器在给定训练条件下达到动态平衡。
进一步地,针对数据流多模态多类别的特性,在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性;在监督条件下由于类别标签给定,因此采用三元组约束来最小化同类不同模态间数据间的特征距离,最大化既不同类也不同模态的数据间的特征距离。
更进一步地,所述判别器的损失函数具体为:
Figure BDA0001887718790000021
最后生成的同模态的生成数据与原始数据相比较来得到的循环损失函数为:
Figure BDA0001887718790000022
其中i表示第i次计算的数据,总共有n个训练样本数据,判别器在训练过程中会不断地朝着减小Ldisc的方向迭代学习,Dimg和Dtxt分别表示两个判别器,(mori,tori)分别表示模态m和模态t的原始特征向量,(mcyc,tcyc)分别表示模态m和模态t通过循环网络生成的特征向量。
再进一步地,所述生成器的损失函数具体为:
Figure BDA0001887718790000023
其中θ1是网络的超参数,||*||2表示求L2距离。
更进一步地,设两个生成器中间层输出的特征向量为mcom和tcom,生成哈希编码的公式为:
mhash=sgn(mcom-0.5)
thash=sgn(tcom-0.5)
其中sgn是阈值函数,公式的含义是中间层浮点型特征向量中的每一位浮点数,值大于0.5时对应的hash码位设置为+1,值小于0.5时对应的hash 码位设置为-1。
再进一步地,为了量化特征向量和生成的哈希码间的近似误差,本方法设计了相关的损失函数作为约束,具体使用了哈希码在特征向量条件下的似然函数,以第i个样本的哈希码第j位
Figure BDA0001887718790000031
和特征向量第j位
Figure BDA0001887718790000032
为例 (样本既可以是图像也可以是文本):
Figure BDA0001887718790000033
其中
Figure BDA0001887718790000034
是特征向量相关的sigmoid函数:
Figure BDA0001887718790000035
进一步根据似然函数设计出损失函数来评估特征向量和生成的哈希码之间的近似误差:
Figure BDA0001887718790000036
其中n为样本总数,dhash为向量位数。
再进一步地,本发明中对生成器中间层特征向量进行类别约束,从而设计出类别损失函数公式为:
Figure BDA0001887718790000041
其中
Figure BDA0001887718790000042
是第i个样本的特征向量
Figure BDA0001887718790000043
经过小型分类网络得到的样本预测类别,ci是该样本实际上的类别标签,类别损失函数实际上计算的是两者间的 L2距离。
为了对跨模态的同类数据对进行相似性的约束,本方法将训练图像样本数据与它相似的文本样本数据建立连接,并设计出损失函数对跨模态的同类数据进行约束,损失函数公式如下:
Figure BDA0001887718790000044
Figure BDA0001887718790000045
Figure BDA0001887718790000046
分别是生成器Gt→m,Gm→t生成图像和文本公共子空间的特征向量,损失函数计算了语义相似的对应跨模态同类数据间的L2距离。
在有监督的数据训练情况下,由于数据都具有类别标签,因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离,设计的三元损失函数为:
Figure BDA0001887718790000047
其中m,t分别代表图像和文本数据,α,β代表两种类别标签,*代表是生成数据,i代表第i次计算用的数据;针对非监督的训练情况,本方法设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度,在计算出 kNN矩阵后,对要进行约束的数据建立相似度矩阵,然后在公共子空间对特征向量进行流形约束,设计流形约束损失函数如下:
Figure BDA0001887718790000051
其中neib,non分别代表邻近和不邻近数据,其他符号含义和之前一样。
进一步地,综合以上的损失函数设计,将有监督训练情况下的生成器损失函数设计为:
Figure BDA0001887718790000052
非监督训练情况下的生成器损失函数设计为:
Figure BDA0001887718790000053
θ2,θ3,θ4,θ5均为网络的权值超参数。整个网络使用RMSProp随机梯度下降优化算法进行训练迭代,迭代公式为:
Figure BDA0001887718790000054
Figure BDA0001887718790000055
由于实际过程中判别器梯度下降较快,本方法设计的网络每训练迭代S次生成器才迭代一次判别器,并且使用超参数cgen,cdisc对网络权重进行修剪,防止网络权重过大。
本发明的优点在于:
本发明通过利用两组生成器和判别器构建的循环生成式对抗网络来更好地建立多模态数据间的语义关系,并设计了多种约束条件来提高检索的准确性和稳定性,采用了二进制哈希码来替代原始特征以提高检索的效率,研究和探索出一种新颖的基于循环生成式对抗网络的跨模态检索方法,具体针对图像和文本间的跨模态检索。
附图说明
图1是本发明实施例的神经网络总体架构图。
图2是本发明实施例的三元组约束示意图。
图3是本发明实施例的流形约束书意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述:
近年来,伴随着人工智能的热潮,深度学***衡。生成式对抗网络被广泛应用在图像生成、语义分割、数据增强等众多领域,能够很好地根据损失函数学习到训练样本的数据分布规律,并生成与训练样本相似的新数据。本方法利用两组生成式对抗网络组成新颖的循环网络,并通过哈希码和多种约束条件提高网络用于多模态检索时的效率、准确性和稳定性。
本发明提供的基于循环生成式对抗网络的跨模态检索方法,主要是设计了一种新型的神经网络,其主要总体结构参见图1。实施例以图像和文本数据间的相互检索为例对本发明的神经网络框架及数据处理流程进行具体的描述,如下:
首先在实施例中,原始二维图像数据实际需要经过初步的处理,本实施例选用深度学习领域流行的19层VGGNet,并将VGGNet的fc7层输出的4096维特征向量作为输入的原始图像特征mori,即图像特征维度dimg为 4096。于此同时,输入的原始文本数据也要经过处理变成初步的特征向量,本实施例采用的是常规的词袋(Bag-of-Words)模型来处理文本数据,得到的BoW向量的长度和文本数据以及具体的选用的处理方法有关,为了实施参考起见,本实施例中的BoW向量维度设定为2000维,即文本特征维度dtxt为2000,并将该向量作为输入的原始文本特征tori
步骤1,设计第一组生成式对抗网络,包含了生成器Gm→t和判别器Dtxt,根据输入的原始图像-原始文本数据对(mori,tori)得到生成文本数据tgen,从而提取出根据图像数据生成文本数据的变换方式,从而得到图像-文本数据间的语义关系。具体实施过程说明如下:
如图1所示,上半部分的网络可以看作第一组生成式对抗网络,主要包含了生成器Gm→t和判别器Dtxt,这时输入为原始图像-原始文本数据对 (mori,tori)。数据在网络中流动,原始图像mori通过生成器Gm→t得到生成文本 tgen,即tgen=Gm→t(mori),并希望生成文本tgen尽量与原始文本tori类似。生成器Gm→t由多层一维卷积层构成,其中的特征向量维度变化为dimg→512→dhash→100→dtxt。dimg表示输入的原始图像特征的维度,在本实施例中为4096;dhash为将要被用于哈希码生成的中间层特征的维度,其大小由所需的哈希码长度决定,可以是64、128、256等多种;dtxt为网络中输入的原始文本特征的维度,也是生成文本的特征长度,在本实施例中为2000。与此同时判别器Dtxt与生成器Gm→t进行动态对抗,尝试区分出原始文本特征tgen和生成文本特征tori。判别器Dtxt是全连接层组成的前馈神经网络,其中的特征维度变化为dtxt→512→16。当生成器和判别器在给定训练条件下达到动态平衡时,生成器Gm→t就能很好地提取出根据图像数据生成文本数据的变换方式,从而得到原始图像-生成文本数据间的语义关系。
步骤2,设计第二组生成式对抗网络,包含了生成器Gt→m和判别器Dimg,输入为上一步得到的原始图像-生成文本数据对(mori,tgen),得到循环图像 mcyc并提取出根据文本数据生成图像数据的变换方式,从而得到文本-图像数据间的语义关系。具体实施过程说明如下:
如图1所示,下半部分的网络可以看作第二组生成式对抗网络,主要包含了生成器Gt→m和判别器Dimg,这时输入为原始图像-生成文本数据对 (mori,tgen)。数据在网络中流动,生成文本tgen通过生成器Gt→m得到循环图像mcyc,即mcyc=Gt→m(tgen)=Gt→m(Gm→t(mori)),并希望循环图像特征mcyc和原始图像特征mori尽可能地相似。生成器Gt→m由多层一维逆卷积层构成,其中的特征向量维度变化为dtxt→100→dhash→512→dimg。dtxt为网络中输入的原始文本特征的维度,在本实施例中为2000;dhash为将要被用于哈希码生成的中间层特征的维度,其大小由所需的哈希码长度决定,可以是64、 128、256等多种,并且要与第一组生成式对抗网络中的哈希码长度相同;dimg表示输入的原始图像特征的维度,也是最后生成的循环图像特征长度,在本实施例中为4096。与此同时判别器Dimg与生成器Gt→m进行动态对抗,尝试区分出循环图像特征mcyc和原始图像特征mori。判别器Dimg是全连接层组成的前馈神经网络,其中的特征维度变化为dimg→512→100→16。当生成器和判别器在给定训练条件下达到动态平衡时,就能很好地提取出根据文本数据生成图像数据的变换方式,从而得到生成文本-循环图像数据间的语义关系。
步骤3,利用以上两步设计的两组生成式对抗网络,同样可以将数据流动方向反转,最终实现由图像数据生成文本数据的变换方式,从而得到图像-文本数据间的语义关系。即综合前两个步骤,首先利用第二组生成式对抗网络将输入的原始文本特征tori生成为生成图像特征mgen,得到文本-图像数据间的语义关系;再利用第一组生成式对抗网络将生成图像特征mgen生成为循环文本特征tcyc,得到图像-文本数据间的语义关系。最终达到了训练时图像数据和文本数据在两组生成式对抗网络中循环流动、生成对抗、不断优化网络的目的,具体实施过程说明如下:
输入数据依然是原始图像-原始文本数据对(mori,tori),与上面两步执行的顺序相反,首先利用第二组生成式对抗网络的生成器生成器Gt→m将输入的原始文本特征tori生成为生成图像特征Gt→m,即mgen=Gt→m(tori),生成器 Gt→m中的特征向量维度变化与之前相同,为dtxt→100→dhash→512→dimg。与此同时判别器Dimg与生成器Gt→m进行动态对抗,尝试区分出原始图像特征 mori和生成图像特征mgen。对抗达到动态平衡后生成器Gt→m就能学***衡后生成器Gm→t就能学习到生成图像-循环文本数据间的语义关系。
通过步骤1、2、3,实施例中的图像数据和文本数据在网络中的双向循环流动通道得以建立,其中一条通道,原始图像特征数据mori通过第一组生成式对抗网络得到生产文本特征tgen,再将tgen通过第二组生成式对抗网络生成循环图像特征mcyc;另一条通道,原始文本数据tori先通过第二组对抗生成网得到生成图像特征mgen,再将mgen通过第一组生成式对抗网络生产循环文本特征tcyc。这样图像和文本数据就可以在两组网络中双向循环生成,与此同时有着判别器Dimg和Dtxt参与对抗生成器,以提高网络学习跨模态数据间语义关系的效果。其中判别器Dimg和Dtxt的损失函数设计为:
Figure BDA0001887718790000101
其中i表示第i次计算的数据,总共有n个训练样本数据,判别器在训练过程中会不断地朝着减小Ldisc的方向迭代学习。双向循环的生成式对抗网络构建完成后,其优势之一就是可以使用最后得到的循环数据与原始数据相比较来得到循环损失函数,同时也是生成器损失函数的重要组成部分:
Figure BDA0001887718790000102
其中θ1是网络的超参数,本实施例中为0.001,||*||2表示求L2距离。
步骤4,为了提高实际运用中跨模态检索的效率,本方法适用阈值函数从两组生成式对抗网络生成器的公共子空间中分别提取出能够表示图像和文本特征的哈希码mhash和thash,并设计了似然函数来评估两种哈希码之间的近似误差。具体实施过程说明如下:
在两组生成式对抗网络中,由于生成器的输入输出分别是不同模态的特征数据,本实例将生成器的中间层当成跨模态数据的公共子空间(如图1 所示),并在以上步骤中将该层的特征长度设计成需要的哈希码的长度 dhash。设中间层的特征向量为mcom和tcom,生成的公式为mhash=sgn(mcom-0.5) 和thash=sgn(tcom-0.5),其中sgn是阈值函数,公式的含义是中间层浮点型特征向量中的每一位浮点数,值大于0.5时对应的hash码位设置为+1,值小于0.5时对应的hash码位设置为-1。这样的阈值变换会针对每一个训练样本的特征向量的每一位,每一个训练样本都能到一个与特征向量等长的哈希码。实施例中用哈希码mhash、thash替代公共子空间特征向量mcom、tcom做检索,就可以将原来检索时不同的浮点型特征向量间的距离计算替换为哈希码间的汉明距离计算,极大提高了检索的计算速度。
为了量化特征向量和生成的哈希码间的近似误差,本实施例设计了相关的损失函数作为约束。实例使用了哈希码在特征向量条件下的似然函数,以第i个样本的哈希码第j位
Figure BDA0001887718790000111
和特征向量第j位
Figure BDA0001887718790000112
为例(样本既可以是图像也可以是文本):
Figure BDA0001887718790000113
其中
Figure BDA0001887718790000114
是特征向量相关的sigmoid函数:
Figure BDA0001887718790000115
实施例根据似然函数设计出损失函数来评估特征向量和生成的哈希码之间的近似误差:
Figure BDA0001887718790000116
其中n为样本总数,dhash为向量位数。评估哈希码近似误差的损失函数将作为网络的约束条件之一在训练时发挥作用。
步骤5,为了构建效果更好的网络模型,本实施例利用多种约束条件对网络训练时生成的数据特征进行约束,使之保留更多类别特征,以提高检索时的精确度。针对数据流多模态多类别的特性,在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性;在监督条件下由于样本类别标签给定,因此采用三元组约束来最小化同类不同模态间数据间的特征距离,最大化既不同类也不同模态的数据间的特征距离。具体实施过程说明如下:
有监督情况下引入另一个小型分类网络来对生成器公共子空间得到的特征向量进行类别约束。对于有监督的跨模态数据集,即训练用的数据样本带有类别标签时,为了更充分利用数据类别标签,本实施例利用小型分类网络对公共子空间进行类别表示,并设计了类别损失函数以约束公共子空间特征向量的生成,使之不同于其他层向量,携带有更强烈的类别信息,在预测分类时也能被正确分类。类别损失函数公式为:
Figure BDA0001887718790000121
其中
Figure BDA0001887718790000122
是第i个样本的特征向量
Figure BDA0001887718790000123
经过小型分类网络得到的样本预测类别,ci是该样本实际上的类别标签,类别损失函数实际上计算的是两者间的 L2距离。
对跨模态的同类数据对进行相似性的约束。在跨模态的数据中,有很多语义相似的成对训练数据,如训练数据中某个图像数据样本和另一个文本数据样本语义相似度很高,有着相似的类别属性。为了利用这一特性,在本实施例中将训练图像样本数据与它相似的文本样本数据建立连接,并设计出损失函数对跨模态的同类数据进行约束。损失函数公式如下:
Figure BDA0001887718790000124
Figure BDA0001887718790000125
Figure BDA0001887718790000126
分别是生成器Gt→m,Gm→t生成图像和文本公共子空间的特征向量,损失函数计算了语义相似的对应跨模态数据的L2距离。
进一步扩展
Figure BDA0001887718790000127
本实施例同时考虑了对跨模态间同类数据和同模态内同类数据的相似性约束,即语义相似的成对跨模态训练数据和同模态数据的特征向量的距离应该小于语义不相似的其他特征向量。在有监督的训练情况下,由于数据都具有类别标签,因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离。三元组约束的示意如图2所示,不同形状的图标代表不同类别的数据,而不同的纹理代表了数据的模态不同,特征空间中的数据与同模态数据或跨模态中的同一类数据距离相近,与跨模态不同类别的数据距离较远。在实施例中,以生成图像数据
Figure BDA0001887718790000131
为例 (生成数据的特征标签就是其原始输入数据的类别标签),首先选取与其同类别标签的文本数据tα,i,同时随机选取不同类别的文本数据tβ,i,其中α,β代表两种类别标签,*代表是生成数据,i代表第i次计算用的数据,生成图像的三元组约束就是要最小化
Figure BDA0001887718790000132
tα,i间的距离,同时最大化
Figure BDA0001887718790000133
tβ,i。同样的,对于生成文本
Figure BDA0001887718790000134
其三元组约束和mα,i,mβ,i有关。因此设计三元组约束损失函数如下:
Figure BDA0001887718790000135
针对非监督的训练情况,本实施例设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度。由于采用非监督数据训练时,数据不含有类别标签,因此本实施例构造了k-近邻矩阵来保证语义相近的数据被聚合,语义不同的数据被分离。如图3所示,本实施例在计算出kNN矩阵后,对要进行约束的数据建立相似度矩阵,然后在公共子空间对特征向量进行流形约束。以由文本数据tα得到的生成图像数据
Figure BDA0001887718790000136
为例,根据tα的kNN矩阵计算结果,将tα的k(本实施例中k设置为2)个最邻近的数据在相似度矩阵中记为1,不临近的数据在相似度矩阵中记为0。在文本数据生成得到图像特征向量之后,随机选取相似度矩阵中为1的文本数据对应的生成图像特征向量作为
Figure BDA0001887718790000141
相似度矩阵中为0的文本数据对应的生成图像特征向量作为
Figure BDA0001887718790000142
在流行约束中,要最小化
Figure BDA0001887718790000143
Figure BDA0001887718790000144
间的距离以保证语义相近数据的生成特征向量的相似度高,最大化
Figure BDA0001887718790000145
Figure BDA0001887718790000146
间的距离来保证不同语义数据的生成特征向量的相似度低。同理对于生成文本数据,也有
Figure BDA0001887718790000147
Figure BDA0001887718790000148
来进行流形约束。因此设计流形约束损失函数如下:
Figure BDA0001887718790000149
综上所述,我们可以得到经各种约束的损失函数构成的生成器损失函数。在有监督的数据训练情况下,生成器损失函数由循环损失函数
Figure BDA00018877187900001410
哈希码损失函数
Figure BDA00018877187900001411
三元组约束损失函数
Figure BDA00018877187900001412
跨模态同类数据损失函数
Figure BDA00018877187900001413
和类别损失函数
Figure BDA00018877187900001414
组成,公式为:
Figure BDA00018877187900001415
其中θ2,θ3,θ4,θ5分别是网络的可调节超参数,本实施例中分别设为5,5, 0.001,20。在非监督的数据训练情况下,生成器损失函数由循环损失函数
Figure BDA00018877187900001416
哈希码损失函数
Figure BDA00018877187900001417
流形约束损失函数
Figure BDA00018877187900001418
跨模态同类数据损失函数
Figure BDA00018877187900001419
组成,公式如下:
Figure BDA00018877187900001420
超参数的值和之前设定的一样。
综合上述5个步骤,设计出判别器损失函数和生成器损失函数后利用常见的极小极大算法迭代最小化网络损失,以实现建立多模态数据间语义关系的目的。本实施例中的极小极大算法使用的是随机梯度下降优化算法,具体使用了更稳定的RMSProp优化算法。由于判别器和生成器相互对抗,因此两者的计算方法是相反的,它们都会在每一轮迭代时对抗对方上一轮的迭代结果,并在这种相互对抗中达到动态平衡。计算方法如下:
Figure BDA0001887718790000151
Figure BDA0001887718790000152
由于实际过程中判别器训练得较快,本方法设计的网络每训练迭代S次生成器才迭代一次判别器。在本实施例中网络训练相关超参数S设定为10,网络的学习率μ设为0.0001,每次训练的分批样本数量(batch size)设为64;同时对网络中学习到的权重进行修剪,将每次训练生成器中大于cgen的权重置为cgen,判别器中大于cdisc的权重置为cdisc,以免学习到的权重过大。
步骤6,将训练好的神经网络用于跨模态数据搜索,主要是将数据通过生成器公共子空间得到的特征向量压缩为哈希码,再利用不同数据哈希码间的汉明距离来检索。具体实施过程说明如下:
实施例中的图像和文本数据经过如上描述的网络训练学习之后,生成器就得到了跨模态数据间语义关系相关信息的提取方式。实施例此时可以进行跨模态数据的双向检索,首先固定训练完毕的网络中的权重参数,将待检索的图像和文本数据mtest,ttest通过训练完毕的生成器Gm→t,Gt→m得到公共子空间上的特征向量mcom,tcom,再将特征向量生成为哈希码mhash,thash待用。利用图像检索文本时,取出该图像的哈希码
Figure BDA0001887718790000153
计算其与所有文本哈希码的汉明距离,距离最近的哈希码
Figure BDA0001887718790000154
代表的文本即是图像→文本跨模态检索的结果;利用文本检索图像时,取出该文本的哈希码
Figure BDA0001887718790000155
计算其与所有图像哈希码的汉明距离,距离最近的哈希码
Figure BDA0001887718790000156
代表的图像即是文本→图像跨模态检索的结果。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (6)

1.一种基于循环生成式对抗网络的跨模态检索方法,其特征在于,包括以下步骤:
设计两个循环模块,其中一个循环模块通过两个生成器实现从图像到文本再到图像的过程,另外一个循环模块通过所述两个生成器实现从文本到图像再到文本的过程;两个循环模块共用两个具有相同网络结构的生成器,且对生成器中间层的输出数据进行了哈希编码;
在每个循环模块中设计判别器,所述判别器对同模态的生成数据和原始数据进行分类,并与生成器进行动态对抗,最终生成器和判别器在给定训练条件下达到动态平衡。
2.根据权利要求1所述的基于循环生成式对抗网络的跨模态检索方法,其特征在于:
针对数据流多模态多类别的特性,在非监督条件下采用流形约束来保证模态间和类别间的数据相似度和差异性;在监督条件下由于类别标签给定,因此采用三元组约束来最小化同类不同模态间数据间的特征距离,最大化既不同类也不同模态的数据间的特征距离。
3.根据权利要求2所述的基于循环生成式对抗网络的跨模态检索方法,其特征在于:
所述判别器的损失函数具体为:
Figure FDA0003324964020000011
最后生成的同模态的生成数据与原始数据相比较来得到的循环损失函数为:
Figure FDA0003324964020000012
其中i表示第i次计算的数据,总共有n个训练样本数据,判别器在训练过程中会不断地朝着减小Ldisc的方向迭代学习,Dimg和Dtxt分别表示两个判别器,(mori,tori)分别表示原始模态m和原始模态t,mcyc生成模态m特征,tcyc生成模态t特征;θ1是网络的超参数,||*||2表示求L2距离。
4.根据权利要求3所述的基于循环生成式对抗网络的跨模态检索方法,其特征在于:
设两个生成器的中间层特征向量为mcom和tcom,生成哈希编码的公式为:
mhash=sgn(mcom-0.5)
t hash=sgn(t com-0.5)
其中sgn是阈值函数,公式的含义是中间层浮点型特征向量中的每一位浮点数,值大于0.5时对应的hash码位设置为+1,值小于0.5时对应的hash码位设置为-1。
5.根据权利要求4所述的基于循环生成式对抗网络的跨模态检索方法,其特征在于:为了量化特征向量和生成的哈希码间的近似误差,设计了相关的损失函数作为约束,具体使用了哈希码在特征向量条件下的似然函数,样本既可以是图像也可以是文本,第i个样本的哈希码第j位
Figure FDA0003324964020000021
和特征向量第j位
Figure FDA0003324964020000022
则:
Figure FDA0003324964020000023
其中
Figure FDA0003324964020000024
是特征向量相关的sigmoid函数:
Figure FDA0003324964020000025
进一步根据似然函数设计出损失函数来评估特征向量和生成的哈希码之间的近似误差:
Figure FDA0003324964020000026
Figure FDA0003324964020000031
其中n为样本总数,dhash为向量位数。
6.根据权利要求5所述的基于循环生成式对抗网络的跨模态检索方法,其特征在于:对生成器中间层特征向量进行类别约束,从而设计出类别损失函数公式为:
Figure FDA0003324964020000032
其中
Figure FDA0003324964020000033
是第i个样本的特征向量
Figure FDA0003324964020000034
经过小型分类网络得到的样本预测类别,ci是该样本实际上的类别标签,类别损失函数实际上计算的是两者间的L2距离;跨模态的同类数据对进行相似性的约束,将训练图像样本数据与它相似的文本样本数据建立连接,并设计出损失函数对跨模态的同类数据进行约束;损失函数公式如下:
Figure FDA0003324964020000035
Figure FDA0003324964020000036
Figure FDA0003324964020000037
分别是生成器Gt→m,Gm→t生成图像和文本公共子空间的特征向量,损失函数计算了语义相似的对应跨模态数据的L2距离;在有监督的数据训练情况下,由于数据都具有类别标签,因此使用三元组约束来最小化相同语义标签下的跨模态数据向量间的距离,设计的三元损失函数为:
Figure FDA0003324964020000038
其中m,t分别代表图像和文本数据,α,β代表两种类别标签,*代表是生成数据,i代表第i次计算用的数据;针对非监督的训练情况,设计了流形约束来保证同模态和跨模态数据中语义相近数据的相似度,在计算出kNN矩阵后,对要进行约束的数据建立相似度矩阵,然后在公共子空间对特征向量进行流形约束;设计流形约束损失函数如下:
Figure FDA0003324964020000041
其中neib,non分别代表邻近和不邻近数据,其他符号含义和之前一样;综合各种函数,在有监督的数据训练情况下生成器损失函数设计为:
Figure FDA0003324964020000042
在非监督的数据训练情况下生成器损失函数设计为:
Figure FDA0003324964020000043
θ2,θ3,θ4,θ5均为网络的权值超参数;整个网络使用RMSProp随机梯度下降优化算法进行训练迭代,迭代公式为:
Figure FDA0003324964020000044
Figure FDA0003324964020000045
由于实际过程中判别器梯度下降较快,设计的网络每训练迭代S次生成器才迭代一次判别器,并且使用超参数cgen,cdisc对网络权重进行修剪,防止网络权重过大。
CN201811455802.6A 2018-11-30 2018-11-30 一种基于循环生成式对抗网络的跨模态检索方法 Active CN109299342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811455802.6A CN109299342B (zh) 2018-11-30 2018-11-30 一种基于循环生成式对抗网络的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811455802.6A CN109299342B (zh) 2018-11-30 2018-11-30 一种基于循环生成式对抗网络的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN109299342A CN109299342A (zh) 2019-02-01
CN109299342B true CN109299342B (zh) 2021-12-17

Family

ID=65142338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811455802.6A Active CN109299342B (zh) 2018-11-30 2018-11-30 一种基于循环生成式对抗网络的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN109299342B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019652B (zh) * 2019-03-14 2022-06-03 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、***、装置和存储介质
CN110032734B (zh) * 2019-03-18 2023-02-28 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110222140B (zh) * 2019-04-22 2021-07-13 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111127385B (zh) * 2019-06-06 2023-01-13 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110309861B (zh) * 2019-06-10 2021-05-25 浙江大学 一种基于生成对抗网络的多模态人类活动识别方法
CN110334708A (zh) 2019-07-03 2019-10-15 中国科学院自动化研究所 跨模态目标检测中的差异自动校准方法、***、装置
CN110443309A (zh) * 2019-08-07 2019-11-12 浙江大学 一种结合跨模态关联关系模型的肌电信号手势识别方法
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及***
CN110930469B (zh) * 2019-10-25 2021-11-16 北京大学 一种基于过渡空间映射的文本生成图像方法和***
CN110990595B (zh) * 2019-12-04 2023-05-05 成都考拉悠然科技有限公司 一种跨域对齐嵌入空间的零样本跨模态检索方法
CN111104982B (zh) * 2019-12-20 2021-09-24 电子科技大学 一种标签无关的跨任务对抗样本生成方法
CN111353076B (zh) * 2020-02-21 2023-10-10 华为云计算技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
WO2021189383A1 (zh) * 2020-03-26 2021-09-30 深圳先进技术研究院 生成高能ct图像模型的训练及生成方法、设备、存储介质
CN111523663B (zh) * 2020-04-22 2023-06-23 北京百度网讯科技有限公司 一种目标神经网络模型训练方法、装置以及电子设备
CN111581405B (zh) * 2020-04-26 2021-10-26 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111783980B (zh) * 2020-06-28 2023-04-07 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN111881884B (zh) * 2020-08-11 2021-05-28 中国科学院自动化研究所 基于跨模态转化辅助的人脸防伪检测方法、***及装置
CN112199462A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112364192A (zh) * 2020-10-13 2021-02-12 中山大学 一种基于集成学习的零样本哈希检索方法
WO2022104540A1 (zh) * 2020-11-17 2022-05-27 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN113706646A (zh) * 2021-06-30 2021-11-26 酷栈(宁波)创意科技有限公司 用于生成山水画的数据处理方法
CN113204522B (zh) * 2021-07-05 2021-09-24 中国海洋大学 基于结合生成对抗网络的哈希算法的大规模数据检索方法
CN113779283B (zh) * 2021-11-11 2022-04-01 南京码极客科技有限公司 一种深度监督与特征融合的细粒度跨媒体检索方法
CN116524420B (zh) * 2023-07-03 2023-09-12 武汉大学 一种交通场景下的关键目标检测方法及***
CN117133024A (zh) * 2023-10-12 2023-11-28 湖南工商大学 综合多尺度特征与动态学习率的掌纹图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及***
CN108256627A (zh) * 2017-12-29 2018-07-06 中国科学院自动化研究所 视听信息互生装置及其基于循环对抗生成网络的训练***
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9030430B2 (en) * 2012-12-14 2015-05-12 Barnesandnoble.Com Llc Multi-touch navigation mode

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及***
CN108256627A (zh) * 2017-12-29 2018-07-06 中国科学院自动化研究所 视听信息互生装置及其基于循环对抗生成网络的训练***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
跨模态检索研究综述;欧卫华等;《贵州师范大学学报(自然科学版)》;20180331;第36卷(第2期);第114-120页 *

Also Published As

Publication number Publication date
CN109299342A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
Deng et al. Unsupervised semantic-preserving adversarial hashing for image search
Wu et al. Cycle-consistent deep generative hashing for cross-modal retrieval
Wu et al. Unsupervised Deep Hashing via Binary Latent Factor Models for Large-scale Cross-modal Retrieval.
Makhzani et al. Adversarial autoencoders
Lai et al. Instance-aware hashing for multi-label image retrieval
CN109241317B (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN111581405A (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN109960732B (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Song et al. A weighted topic model learned from local semantic space for automatic image annotation
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
Xiao et al. ANE: Network embedding via adversarial autoencoders
Yang et al. Graph regularized encoder-decoder networks for image representation learning
Lai Transductive zero-shot hashing via coarse-to-fine similarity mining
CN113204522B (zh) 基于结合生成对抗网络的哈希算法的大规模数据检索方法
Zhang et al. Enhanced semantic similarity learning framework for image-text matching
Li et al. Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval
Zheng et al. Robust representation learning with reliable pseudo-labels generation via self-adaptive optimal transport for short text clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant