CN111581405B - 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 - Google Patents

基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 Download PDF

Info

Publication number
CN111581405B
CN111581405B CN202010337222.8A CN202010337222A CN111581405B CN 111581405 B CN111581405 B CN 111581405B CN 202010337222 A CN202010337222 A CN 202010337222A CN 111581405 B CN111581405 B CN 111581405B
Authority
CN
China
Prior art keywords
features
semantic
modal
retrieval
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010337222.8A
Other languages
English (en)
Other versions
CN111581405A (zh
Inventor
徐行
朱佳文
沈复民
汪政
杨阳
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010337222.8A priority Critical patent/CN111581405B/zh
Publication of CN111581405A publication Critical patent/CN111581405A/zh
Application granted granted Critical
Publication of CN111581405B publication Critical patent/CN111581405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,该方法基于对偶学习构建生成对抗网络,将不同模态的高维视觉特征映射到共同的低维的语义嵌入空间,然后构造多种约束机制进行循环一致性约束,生成对抗约束和分类器约束,以维持视觉‑语义一致性和生成特征‑源特征一致性,经过整个网络训练后进行跨模态检索,使得模型在泛化零样本检索问题上性能更为强大。同时,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据,以减少数据集收集的繁琐度和昂贵成本,检索效果更优,在零样本泛化检索问题中性能提升更为明显。

Description

基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
技术领域
本发明属于计算机视觉中的跨模态检索技术领域,具体涉及一种在多媒体类型的数据之间进行检索的方法,即基于对偶学习生成对抗网络的跨模态泛化零样本检索方法。
背景技术
跨媒体检索是指用户通过输入任意媒体类型的查询数据,检索出所有媒体类型中的语义相关数据。随着互联网中文本、图像、视频等多媒体数据的日益增多,跨越不同模态的检索成为信息检索的新趋势。传统跨模态零样本检索的目标是在未见过的新的类别数据上进行跨模态检索;跨模态泛化零样本检索的测试集包括未知类以及一部分已知类,但其类别标签对模型未知,具有更大的检索难度。
目前,跨模态泛化零样本检索方法,其研究受限于以下问题:
1.不同模态数据之间存在“语义鸿沟”和类内差异性问题,该问题导致不同媒体类型的数据分布和特征表示之间存在不一致性,因此难以直接度量多种媒体数据之间的相似性;
2.零样本检索问题涉及到将从已知类学习到的知识转移到未知类上,这种学习和迁移过程中存在信息损失和过拟合问题,因此泛化零样本检索往往比传统零样本检索更具难度。
为解决上述问题,一个普遍的思路是将不同模态的异构视觉特征映射到同一个公共子空间中得到统一表征,进而通过常用的距离度量方法直接计算不同模态数据之间的相似性,实现跨模态交叉检索。目前主要方法是通过深度学习方法构建神经网络,以现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系,有效提升对复杂跨模态关联的分析能力,以提高跨模态统一表征的检索准确率。这些方法通常采用对抗生成网络来生成共同嵌入空间,以获取不同模态数据的异构分布和特征表示。
现有方法的主要问题在于,从高维视觉特征映射到低维语义时存在语义信息损失,对抗生成网络在训练时也常常不稳定;同时,训练模型无法对只存在于未知类中的视觉外观特征和语义信息进行确定的编码,导致模型在检索过程中会趋向于训练过程中曾出现过的已知类。
发明内容
本发明的发明目的在于克服现有技术的不足,基于生成对抗网络的跨模态泛化零样本检索方法,通过对偶学习方法实现视觉->语义和语义->视觉的双向生成映射,这种基于对偶学习的对抗生成网络相互协作,以帮助保留视觉-语义一致性。
基于生成对抗网络的跨模态泛化零样本检索方法,该方法通过跨模态检索网络模型的网络结构实现,所述跨模态检索网络模型的网络结构包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块;
其中,多模态特征提取模块是该检索问题的基础层,提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练;对于视觉特征的提取,以基于ImageNet进行预训练的VGG16网络作为基础网络,在最后加入注意力机制,提取了512维的视觉表征;对于语义特征的提取,结合文本模型和层次模型建立特征选择自动编码器,最终提取M维的语义特征;从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入。
用X,Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征,X为草图视觉特征,Y为自然图像视觉特征;用S表示语义特征提取模块提取出的视觉特征对应的语义特征。
所述的基于对偶学习的对抗生成模块包括视觉-语义双向映射网络,将重构的特征和原始特征相比较,通过约束缩短它们的距离来实现跨域对齐,从而减小语义损失,使得模型在泛化零样本检索问题上性能更为强大。通过生成器Generator基于语义特征生成相应的视觉特征;以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间;Generator和Regressor与判别器Discriminator组成生成对抗网络结构。
Generator选取了CVAE网络模型,其中Encoder首先基于视觉特征X或Y生成了一个噪声向量k,再将语义特征与相应噪声向量k相结合,作为CVAE模型中Decoder的输入,用于生成语义特征相应的视觉特征X′和Y′;生成的视觉特征通过Regressor再次映射回语义模态,得到相应的语义特征。在训练过程中,样本中的视觉特征X/Y通过Regressor生成相应的语义特征,再通过Generator反向映射回相应视觉空间。
其中,Regressor就是我们最终所需要的模型,即多模态视觉特征->语义特征的生成模型(Rsk:X->S和Rim:Y->S)。
所述基于多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上,得到相应实值特征或二元特征;以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况。
进一步地,语义特征的特征选择自动编码器结合了特定的文本模型和层次模型,获得的语义表征包含文本侧信息和层次侧信息,两种信息互为补充,使语义特征更具有鲁棒性。
进一步地,由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据,以减少数据集收集的繁琐度和昂贵成本。
本发明提出的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,具体包括如下步骤:
步骤S1:选择训练数据集。对训练数据进行预处理操作,生成视觉特征和语义特征,生成的视觉和语义特征作为构建的跨模态检索网络模型的输入;
步骤S2:构建跨模态检索模型。对所述跨模态检索网络模型的网络结构进行设计和构造;
步骤S3:构造约束。对所构建的跨模态检索网络模型精心设计约束,在之后的网络训练过程中以求生成信息损失最小;
步骤S4:训练跨模态检索网络模型,将不同模态视觉特征映射到共享的潜在语义空间中;
步骤S5:验证模型检索效果。获取当剔除相关约束或语义特征模型后,跨模态检索网络模型对应检索性能的描述数据。
进一步地,所述步骤S1中的数据集划分情况如下:在应用实例中,选择了应用广泛的大规模的Sketchy Ext.和TU-Berlin Ext.作为数据集;Sketchy数据集共有125个类别,随机选取100个类作为训练的可见类,剩余25个类作为不可见类;TU-Berl in数据集共有250个类别,随机选取220个类作为训练的可见类,剩余30个类作为不可见类;模型进行传统的零样本检索时,测试集直接选用不可见类;跨模态检索网络模型进行泛化零样本检索时,在训练集中随机选取不可见类数量的20%的类别,将这些类别加入到不可见类中作为最终的测试集,此时Sketchy数据集的测试集类别为25+25*0.2=30个,TU-Berl in数据集的测试集类别为30+30*0.2=36个。
进一步地,所述步骤S3中的约束包括:Ladv,Lcyc,Lcls。其中Ladv确保生成对抗过程中的信息损失;Lcvc确保重构生成特征和源特征之间的循环一致性,以减小生成过程中的语义损失;Lcls使生成视觉特征更具有判别性。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:对一个给定的模态数据,提取其特征向量;
步骤S52:将提取的特征向量输入训练好的跨模态检索网络模型,映射到公共语义子空间,得到实值特征或者二元特征;
步骤S53:计算潜在语义空间中另一模态数据变量与检索目标的相似性矩阵,进行排序,相似性最大的变量对应的原始模态数据为检索结果,即与检索目标属于同一类别的其他模态。
本发明提出了一个新兴的模型,用于解决泛化零样本检索方法。本发明使用对偶学习的方法使得生成的语义特征可以重构回源语义特征空间,生成的视觉特征也可以重构回源视觉特征空间,在精心设计的约束的作用下,对偶结构使得多模态之间的生成过程可以保留足够的语义-视觉一致性和生成特征-源特征一致性,使得本发明在传统零样本检索和泛化零样本检索中都可以获得比较好的检索效果;本发明的语义特征的特征选择自动编码器结合了特定的文本模型和层次模型,获得的语义表征包含文本侧信息和层次侧信息,两种信息互为补充,使语义特征更具有鲁棒性;本发明由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据,可减少数据集收集的繁琐度和昂贵成本。
附图说明
图1为基于生成对抗网络的跨模态泛化零样本检索方法的实现流程图;
图2为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的框架示意图;
图3为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的另一框架示意图;
图4为本发明的基于生成对抗网络的跨模态泛化零样本检索方法的网络结构;
图5为基于生成对抗网络的跨模态泛化零样本检索方法的实例在数据集Sketchy和TU-Berlin上的检索效果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式作进一步地详细描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,所描述的实施例是本发明的部分实施例,而不是全部的实施例,也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明中基于生成对抗网络的跨模态泛化零样本检索方法包含如下步骤:
步骤1:选择训练数据集。本实例中选取了选择了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.进行实验。
Sketchy Ext.包含75479张草图和73002张自然图像,共分125个不同类别,随机选取其中的100个作为训练用的可见类别,剩余25个为训练过程中的不可见类别;
TU-Berlin Ext.包含20000张草图和204489张自然图像,共分为250个不同类别,随机选取其中220个作为训练用的可见类别,剩余30个为不可见类别。
为了综合测试跨模态检索网络模型的检索效果,实例中对跨模态检索网络模型进行了传统零样本检索和泛化零样本检索。跨模态检索网络模型进行传统零样本检索时,测试集直接选用不可见类;跨模态检索网络模型进行泛化零样本检索时,在训练集中随机选取不可见类数量的20%的类别,将这些类别加入到不可见类中作为最终的测试集,此时Sketchy数据集的测试集类别为25+25*0.2=30个,TU-Berlin数据集的测试集类别为30+30*0.2=36个。
选择以上两个数据集是为了验证跨模态检索网络模型对于不同类型数据集的适应性和鲁棒性,Sketchy和TU-Berlin均包含多个分类,同时,TU-Berlin由于自然图像与草图之间数据量不匹配的缘故,属于非对齐数据对,模型是否适用于非对齐数据检索任务,则可从该数据集上得到基本验证。
步骤2:构造跨模态检索网络模型。本实施例中该模型包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块;
其中,多模态特征提取模块是该检索问题的基础层,提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练;对于视觉特征的提取,以基于ImageNet进行预训练的VGG16网络作为基础网络,在最后加入注意力机制,提取了512维的视觉表征;对于语义特征的提取,我们结合文本模型和层次模型建立特征选择自动编码器,最终提取了M维的语义特征,在实例中M被设置为64;从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入。
用X,Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征,X为草图视觉特征,Y为自然图像视觉特征;用S表示语义特征提取模块提取出的视觉特征对应的语义特征。
参见图2,所述的基于对偶学习的对抗生成模块包括视觉-语义双向映射网络,将重构的特征和原始特征相比较,通过约束缩短它们的距离来实现跨域对齐,从而减小语义损失,使得模型在泛化零样本检索问题上性能更为强大。通过生成器Generator基于语义特征生成相应的视觉特征;以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间;Generato r和Regressor与判别器Discriminator组成生成对抗网络结构。
参见图3、图4,在语义->视觉映射中,本实例Generator(Gsk:S->X和Gim:S->Y)选取了CVAE网络模型,其中编码器Encoder首先基于视觉特征X或Y生成了一个噪声向量k,再将语义特征与相应噪声向量k相结合,作为CVAE模型中解码器Decoder的输入,用于生成语义特征相应的视觉特征X′和Y′;生成的视觉特征通过Regressor再次映射回语义模态,得到相应的语义特征。在训练过程中,样本中的视觉特征X/Y通过Regressor生成相应的语义特征,再通过Generator反向映射回相应视觉空间。
其中,Regressor就是我们最终所需要的模型,即多模态视觉特征->语义特征的生成模型(Rsk:X->S和Rim:Y->S)。
作为基于多模态检索模块的基础模型,Gsk的CVAE训练网络的目标约束被设置为:
Figure GDA0003175711400000061
在本发明中,Gsk的CVAE的编码器PE(k|x)基于给定的草图x生成相应的噪声向量k;CVAE中的PD(x|k,s)基于噪声向量k和源语义特征s生成相应的草图视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布。DKL(p||q)为KL散度,KL散度又称为相对熵,信息散度,信息增益。KL散度是是两个概率分布q和p差别的非对称性的度量。KL散度是用来度量使用基于q的编码来编码来自p的样本平均所需的额外的位元数。典型情况下,p表示数据的真实分布,q表示数据的理论分布,模型分布,或p的近似分布。KL散度是信息理论一个常见计算量,并不是本发明的改进点,故不再赘述。
对于Gim我们有相似的CVAE训练网络,其目标约束被设置为:
Figure GDA0003175711400000062
其中,Gim的CVAE的编码器PE(k|y)基于给定的自然图像y生成相应的噪声向量k;CVAE中的PD(y|k,s)基于噪声向量k和源语义特征s生成相应的自然图像视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布。
所述基于多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上,得到相应实值特征或二元特征;以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况。
语义特征的特征选择自动编码器结合了特定的文本模型和层次模型,获得的语义表征包含文本侧信息和层次侧信息,两种信息互为补充,使语义特征更具有鲁棒性。
同时,由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据,以减少数据集收集的繁琐度和昂贵成本。
步骤3:构造约束。Ladv,Lcyc,Lcls。其中Ladv确保生成对抗过程中的信息损失以减小“语义鸿沟”问题,在对抗生成学习过程中,引进了以下三个Discriminator,包括Dsk、Dim和Dse:Dsk用于识别源草图特征X和生成的草图特征Gsk(s),Dsk目标是当输入源草图特征时尽可能输出1,当输入生成草图特征时尽可能输出0,其目标对抗损失函数为:
Figure GDA0003175711400000076
E[*]为均方误差损失函数。相似的,Dim用于识别源自然图像特征Y和生成的自然图像特征Gim(s),对于Dim我们设置了与Dsk相似的目标对抗损失函数Ladv(Dim),即
Figure GDA0003175711400000071
Dse用于区分源语义特征S和生成的语义特征Rsk(X)和Rim(Y),其目标对抗损失函数为:
Figure GDA0003175711400000074
其中λ为超参数,可以通过调试针对不同模型进行修改;E[*]为均方误差损失函数。
Lcyc确保重构生成特征和源特征之间的循环一致性,限制源特征的生成映射能通过生成网络返回原本的模态,以保证生成的语义特征能很好的表示相关的视觉特征,以及包含高判别性语义信息和减少语义损失,对于草图-语义映射,目标循环一致性损失函数被设置为:
Figure GDA0003175711400000073
E[*]为L1范数损失函数。相似的,对于自然图像-语义映射也设置了循环一致性损失函数,即
Figure GDA0003175711400000072
其中,E[*]为L1范数损失函数。
Lcls使生成视觉特征尽可能被预训练的分类器分类到源类别上,更具有判别性,对于草图-语义映射,草图分类器基于草图特征x生成的语义特征Rsk(x)和高斯噪声θ得到相应的类别c,然后通过分类损失确保得到的类别c与真实类别一致。分类损失函数被设置为:
Figure GDA0003175711400000075
其中,E[*]为交叉熵损失函数;相似的,对于自然图像-语义映射也设置了相似的自然图像分类器和分类损失函数:
Figure GDA0003175711400000082
进一步地,生成对抗训练中Generator和Regressor的总体目标约束为:
Figure GDA0003175711400000083
生成对抗训练中Discriminator的总体目标约束为
Figure GDA0003175711400000084
步骤4:训练跨模态检索网络模型。本实例选取Adam作为Generator和Regressor的优化器,其动量被设置为(0.8,0.999);SGD作为Discriminator的优化器,动量被设置为0.9;所有的初始学习率被设置为0.0001;以及使用ITQ算法将生成的实值语义特征量化为二元特征,用来在哈希设置上检测模型效果。
步骤5:验证模型检索效果。本实例中选取了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.上进行检索,在mAP@all和Precision@100指标上和最近的草图-自然图像跨模态实值算法进行效果评估,mAP是多个查询的平均正确率(AP)的均值,Precision表示的是被识别为正类别的样本中,确实为正类别的比例是多少,它们均从整体上反映模型的检索性能,是信息检索***常用的评价指标。测试比较结果如下表1;
表1
Figure GDA0003175711400000081
在mAP@200和Precision@200指标上和最近的草图-自然图像跨模态哈希算法进行效果评估,测试比较结果如下表2:
表2
Figure GDA0003175711400000091
从表1、表2可以看出,本发明(Our Method)在所有的测试集上均优于现有的方法,在草图-自然图像检索场景中获得了最高的检索准确率。我们注意到Yelamarthi et al.在Sketchy上表现的很好,但是由于TU-Berlin上由于成对样本比较难以获得所以其在TU-Berlin上表现不佳;SEM-PCYC由于运用了cycle-GAN结构和增加了循环一致性损失函数,在生成视觉特征和语义特征时保持了良好的循环一致性,跨模态传统零样本检索和跨模态泛化零样本检索中的效果相对于之前的方法有比较大的提升;然而本发明的方法由于增加了对偶学习的思想,同时对语义->视觉映射增加了循环一致性损失,因此可以生成更具有判别性的语义特征,减少语义损失,获得更好的检索效果。
参见图5,为本实施例在两个数据集上的检索效果图。
剔除相关特定约束和语义模型,选取mAP@all指标上对基于生成对抗网络的跨模态泛化零样本检索方法进行了效果评估,测试结果如下表3,“wo”指特定的约束被剔除出模型训练过程的情况:
表3
Figure GDA0003175711400000092
从表3可以看出,在语义特征生成网络中,仅仅使用文本模型或者层次模型生成语义特征的效果会低于两种模型的结合效果;另外,我们注意到如果缺少了Lcyc和Lcls,模型的检索效果会大大降低,因为此时模型无法保证生成的语义特征对是匹配的;当缺少Lcyc,相对于完整的模型结构,此时模型的检索效果略有一些下降,但仍然得到了比较好的结果,由此可以看出本发明涉及的网络结构本身具有强大的循环一致性效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (6)

1.一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,该方法包括以下步骤:
步骤S1:选择训练数据集,对训练数据进行预处理操作,生成视觉特征和语义特征,生成的视觉和语义特征作为构建的跨模态检索网络模型的输入;
步骤S2:构建跨模态检索网络模型,对所述跨模态检索网络模型的网络结构进行设计和构造;
步骤S3:构造约束,对所构建的跨模态检索网络模型设计约束,在之后的网络训练过程中以求生成信息损失最小;
步骤S4:训练所述跨模态检索网络模型,将不同模态视觉特征映射到共享的潜在语义空间中;
步骤S5:验证模型检索效果,获取当剔除相关约束或语义特征模型后,所述跨模态检索网络模型对应检索性能的描述数据;
其中,所述跨模态检索网络模型的网络结构包括多模态特征提取模块、基于对偶学习的对抗生成模块和基于多模态检索模块;
多模态特征提取模块是泛化零样本检索问题的基础层,提取多模态视觉特征和对应的语义特征用于后续的生成对抗训练;对于视觉特征的提取,以基于ImageNet进行预训练的VGG16网络作为基础网络,在最后加入注意力机制,提取了512维的视觉表征;对于语义特征的提取,结合文本模型和层次模型建立特征选择自动编码器,最终提取了M维的语义特征;从视觉和语义特征提取模块提取的特征作为基于对偶学习的对抗生成模块的输入;
用X,Y分别表示多模态视觉特征提取模块提取出的两个模态的视觉特征,X为草图视觉特征,Y为自然图像视觉特征;用S表示语义特征提取模块提取出的视觉特征对应的语义特征;
所述基于对偶学习的对抗生成模块包括视觉-语义双向映射网络,将重构的特征和原始特征相比较,通过约束缩短它们的距离来实现跨域对齐,从而减小语义损失,使得所述跨模态检索网络模型在泛化零样本检索问题上性能更为强大,通过生成器Generator基于语义特征生成相应的视觉特征;以及通过回归器Regressor将生成的视觉特征映射回相应的语义空间;Generator和Regressor与判别器Discriminator组成生成对抗网络结构;
在语义->视觉映射中,Generator,包括Gsk:S->X和Gim:S->Y,选取了CVAE网络模型,其中编码器Encoder首先基于视觉特征X或Y生成了一个噪声向量k,再将语义特征与相应噪声向量k相结合,作为CVAE模型中解码器Decoder的输入,用于生成语义特征相应的视觉特征X′和Y′;生成的视觉特征通过Regressor再次映射回语义模态,得到相应的语义特征;在训练过程中,样本中的视觉特征X/Y通过Regressor生成相应的语义特征,再通过Generator反向映射回相应视觉空间;
其中,Regressor就是最终所需要的模型,即多模态视觉特征->语义特征的生成模型,包括Rsk:X->S和Rim:Y->S;
作为基于多模态检索模块的基础模型,Gsk的CVAE训练网络的目标约束被设置为:
Figure FDA0003175711390000021
其中,Gsk的CVAE的编码器PE(k|x)基于给定的草图x生成相应的噪声向量k;CVAE中的PD(x|k,s)基于噪声向量k和源语义特征s生成相应的草图视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布;DKL(p||q)为KL散度,KL散度又称为相对熵,信息散度,信息增益,KL散度是两个概率分布q和p差别的非对称性的度量,KL散度是用来度量使用基于q的编码来编码来自p的样本平均所需的额外的位元数,p表示数据的真实分布,q表示数据的理论分布、模型分布或p的近似分布;
对于Gim有相似的CVAE训练网络,其目标约束被设置为:
Figure FDA0003175711390000022
其中,Gim的CVAE的编码器PE(k|y)基于给定的自然图像y生成相应的噪声向量k;CVAE中的PD(y|k,s)基于噪声向量k和源语义特征s生成相应的自然图像视觉特征;E[*]为均方损失误差损失函数;P(k)是一个单元高斯分布;
所述基于多模态检索模块包括通过Regressor将测试集样本映射到语义子空间上,得到相应实值特征或二元特征;以及通过计算两个视觉模态的相似性矩阵得到给定检索目标相应的其他模态数据的匹配情况;
语义特征的特征选择自动编码器结合了特定的文本模型和层次模型,获得的语义表征包含文本侧信息和层次侧信息,两种信息互为补充,使语义特征更具有鲁棒性;
同时,由于基于对偶学习的生成对抗网络的生成特征强大的循环一致性约束和语义信息,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据。
2.根据权利要求1所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,所述M被设置为64。
3.根据权利要求2所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,所述步骤S1具体为:选取了选择了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.进行实验;
Sketchy Ext.包含75479张草图和73002张自然图像,共分125个不同类别,随机选取其中的100个作为训练用的可见类别,剩余25个为训练过程中的不可见类别;
TU-Berlin Ext.包含20000张草图和204489张自然图像,共分为250个不同类别,随机选取其中220个作为训练用的可见类别,剩余30个为不可见类别;
为了综合测试所述跨模态检索网络模型的检索效果,对跨模态检索网络模型进行了传统零样本检索和泛化零样本检索,跨模态检索网络模型进行传统零样本检索时,测试集直接选用不可见类;跨模态检索网络模型进行泛化零样本检索时,在训练集中随机选取不可见类数量的20%的类别,将这些类别加入到不可见类中作为最终的测试集,此时Sketchy数据集的测试集类别为25+25*0.2=30个,TU-Berlin数据集的测试集类别为30+30*0.2=36个;
选择以上两个数据集是为了验证跨模态检索网络模型对于不同类型数据集的适应性和鲁棒性。
4.根据权利要求3所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,所述步骤S3具体包括:
构造约束Ladv,Lcyc,Lcls,其中Ladv确保生成对抗过程中的信息损失以减小语义鸿沟问题,在对抗生成学习过程中,引进了以下三个Discriminator,包括Dsk、Dim和Dse:Dsk用于识别源草图特征X和生成的草图特征Gsk(s),Dsk目标是当输入源草图特征时尽可能输出1,当输入生成草图特征时尽可能输出0,其目标对抗损失函数为:
Figure FDA0003175711390000031
E[*]为均方误差损失函数,Dim用于识别源自然图像特征Y和生成的自然图像特征Gim(s),对于Dim设置了与Dsk相似的目标对抗损失函数Ladv(Dim),即
Figure FDA0003175711390000032
Dse用于区分源语义特征S和生成的语义特征Rsk(X)和Rim(Y),其目标对抗损失函数为:
Figure FDA0003175711390000041
其中λ为超参数,其针对不同模型通过调试进行修改;E[*]为均方误差损失函数;
Lcyc确保重构生成特征和源特征之间的循环一致性,限制源特征的生成映射能通过生成网络返回原本的模态,以保证生成的语义特征能很好的表示相关的视觉特征,以及包含高判别性语义信息和减少语义损失,对于草图-语义映射,目标循环一致性损失函数被设置为:
Figure FDA0003175711390000042
E[*]为L1范数损失函数;相似的,对于自然图像-语义映射也设置了循环一致性损失函数,即
Figure FDA0003175711390000043
其中,E[*]为L1范数损失函数;
Lcls使生成视觉特征尽可能被预训练的分类器分类到源类别上,更具有判别性,对于草图-语义映射,草图分类器基于草图特征x生成的语义特征Rsk(x)和高斯噪声θ得到相应的类别c,然后通过分类损失确保得到的类别c与真实类别一致,分类损失函数被设置为:
Figure FDA0003175711390000044
其中,E[*]为交叉熵损失函数;相似的,对于自然图像-语义映射也设置了相似的自然图像分类器和分类损失函数:
Figure FDA0003175711390000045
进一步地,生成对抗训练中Generator和Regressor的总体目标约束为:
Figure FDA0003175711390000046
生成对抗训练中Discriminator的总体目标约束为
Figure FDA0003175711390000047
5.根据权利要求1-4任意一项所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,所述步骤S4具体包括:选取Adam作为Generator和Regressor的优化器,其动量被设置为(0.8,0.999);SGD作为Discriminator的优化器,动量被设置为0. 9;所有的初始学习率被设置为0.0001;以及使用ITQ算法将生成的实值语义特征量化为二元特征,用来在哈希设置上检测所述跨模态检索网络模型效果。
6.根据权利要求5所述的基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,其特征在于,所述步骤S5具体包括:
选取了两个大规模数据集Sketchy Ext.和TU-Berlin Ext.上进行检索,在mAP@all和Precision@100指标上和最近的草图-自然图像跨模态实值算法进行效果评估,mAP是多个查询的平均正确率AP的均值,Precision表示的是被识别为正类别的样本中,确实为正类别的比例是多少,它们均从整体上反映所述跨模态检索网络模型的检索性能。
CN202010337222.8A 2020-04-26 2020-04-26 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 Active CN111581405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010337222.8A CN111581405B (zh) 2020-04-26 2020-04-26 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010337222.8A CN111581405B (zh) 2020-04-26 2020-04-26 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Publications (2)

Publication Number Publication Date
CN111581405A CN111581405A (zh) 2020-08-25
CN111581405B true CN111581405B (zh) 2021-10-26

Family

ID=72124520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010337222.8A Active CN111581405B (zh) 2020-04-26 2020-04-26 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

Country Status (1)

Country Link
CN (1) CN111581405B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102928B (zh) * 2020-09-02 2022-11-01 上海壁仞智能科技有限公司 病理图像染色风格归一化方法及装置
CN112199462A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112364894B (zh) * 2020-10-23 2022-07-08 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
WO2022104540A1 (zh) * 2020-11-17 2022-05-27 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112612936B (zh) * 2020-12-28 2022-03-08 杭州电子科技大学 一种基于对偶转换网络的多模态情感分类方法
CN113010700B (zh) * 2021-03-01 2022-03-25 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN113157954B (zh) * 2021-04-20 2022-04-26 江西师范大学 一种基于跨域转换的草图交互式服装图像检索方法
CN113269274B (zh) * 2021-06-18 2022-04-19 南昌航空大学 一种基于循环一致性的零样本识别方法及***
CN113361646A (zh) * 2021-07-01 2021-09-07 中国科学技术大学 基于语义信息保留的广义零样本图像识别方法及模型
CN113537322B (zh) * 2021-07-02 2023-04-18 电子科技大学 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
CN113627482B (zh) * 2021-07-09 2023-08-18 南京邮电大学 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN113657272B (zh) * 2021-08-17 2022-06-28 山东建筑大学 一种基于缺失数据补全的微视频分类方法及***
CN113628329B (zh) * 2021-08-20 2023-06-06 天津大学 一种零样本草图三维点云检索方法
CN113989697B (zh) * 2021-09-24 2024-06-07 天津大学 基于多模态自监督深度对抗网络的短视频分类方法及装置
CN114090801A (zh) * 2021-10-19 2022-02-25 山东师范大学 深度对抗注意力跨模态哈希检索方法及***
CN114241273B (zh) * 2021-12-01 2022-11-04 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及***
CN114791958B (zh) * 2022-04-28 2023-04-07 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN115311595B (zh) * 2022-06-30 2023-11-03 中国科学院自动化研究所 视频特征提取方法、装置及电子设备
CN114861893B (zh) * 2022-07-07 2022-09-23 西南石油大学 一种多通路聚合的对抗样本生成方法、***及终端
CN114863194B (zh) * 2022-07-11 2022-11-18 北京邮电大学 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN115658954B (zh) * 2022-10-28 2023-12-26 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法
CN116821408B (zh) * 2023-08-29 2023-12-01 南京航空航天大学 一种多任务一致性对抗的检索方法及***
CN117315433B (zh) * 2023-11-30 2024-02-13 中国科学院空天信息创新研究院 基于分布一致性约束的遥感多模态多空间泛函映射方法
CN117746075B (zh) * 2024-01-03 2024-05-14 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280562B1 (en) * 2006-01-31 2016-03-08 The Research Foundation For The State University Of New York System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN108959522A (zh) * 2018-04-26 2018-12-07 浙江工业大学 基于半监督对抗生成网络的迁移检索方法
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280562B1 (en) * 2006-01-31 2016-03-08 The Research Foundation For The State University Of New York System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN108959522A (zh) * 2018-04-26 2018-12-07 浙江工业大学 基于半监督对抗生成网络的迁移检索方法
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法

Also Published As

Publication number Publication date
CN111581405A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
Chen et al. Improving deep visual representation for person re-identification by global and local image-language association
Cui et al. Identifying materials of photographic images and photorealistic computer generated graphics based on deep CNNs.
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质
Wang et al. Adversarial correlated autoencoder for unsupervised multi-view representation learning
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
Xu et al. Zero-shot cross-modal retrieval by assembling autoencoder and generative adversarial network
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Xu et al. Domain disentangled generative adversarial network for zero-shot sketch-based 3d shape retrieval
Wang et al. Cross-modality retrieval by joint correlation learning
Dong et al. Cross-media similarity evaluation for web image retrieval in the wild
Liu et al. Cross-class generative network for zero-shot learning
Chen et al. Class-level Structural Relation Modeling and Smoothing for Visual Representation Learning
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
Wang et al. A convolutional neural network image classification based on extreme learning machine
Wang et al. Interpolation normalization for contrast domain generalization
Vijayaraju Image retrieval using image captioning
Zhou et al. Study on face recognition under unconstrained conditions based on LBP and deep learning
Chen et al. Learning point-language hierarchical alignment for 3D visual grounding
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
Li et al. Efficient 3d object retrieval based on compact views and hamming embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant