CN113779361A - 基于多层注意力机制的跨模态检索模型的构建方法及应用 - Google Patents

基于多层注意力机制的跨模态检索模型的构建方法及应用 Download PDF

Info

Publication number
CN113779361A
CN113779361A CN202110995974.8A CN202110995974A CN113779361A CN 113779361 A CN113779361 A CN 113779361A CN 202110995974 A CN202110995974 A CN 202110995974A CN 113779361 A CN113779361 A CN 113779361A
Authority
CN
China
Prior art keywords
data
text
image
cross
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110995974.8A
Other languages
English (en)
Inventor
李国徽
孔浩
袁凌
魏明
金从元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Wuhan Fiberhome Technical Services Co Ltd
Original Assignee
Huazhong University of Science and Technology
Wuhan Fiberhome Technical Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Wuhan Fiberhome Technical Services Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202110995974.8A priority Critical patent/CN113779361A/zh
Publication of CN113779361A publication Critical patent/CN113779361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多层注意力机制的跨模态检索模型的构建方法及应用,包括:S1、搭建跨模态检索模型;S2、计算图像模态和文本模态间的不变性损失、标签空间损失、以及公共表示空间中不同模态间和各个模态内的判别损失,加以不同的权重,得到跨模态检索模型的损失函数;S3、通过最小化跨模态检索模型的损失函数对跨模态检索模型进行训练。本发明在训练过程中,通过考虑不同模态之间的相互影响,分别对各图像文本数据对基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信息,以及学习其文本特征和图像特征之间的全局特征对应关系,充分利用了原始数据中的语义信息,将多模态特征进行融合,大大提高了跨模态检索的准确度。

Description

基于多层注意力机制的跨模态检索模型的构建方法及应用
技术领域
本发明属于数据检索技术领域,更具体地,涉及一种基于多层注意力机制的跨模态检索模型的构建方法及应用。
背景技术
互联网上的通用搜索引擎,例如Google、Baidu、Yahoo仅接受基于文本的检索方法,只能提供文本关键字作为检索内容的服务,而不支持使用多模态信息进行检索的服务。仅采用文本进行查询的方式往往不能准确获取我们想要的查询结果,且由于用户输入的文本关键字通常是主观的,因此难以准确和全面地描述多媒体信息,这极大的影响了用户使用搜索引擎的体验。
相比于传统的检索方式,跨模态检索任务主要针对不同模态的数据进行检索,输入一种模态的数据作为查询条件查找相关的另一种模态的数据。在信息技术飞速发展的今天,多模态数据已成为大数据的主要表现形式,而如何让计算机具备理解多模态数据的能力成为一个值得研究的重要课题。多模态数据种类多样,语义丰富,不同的模态数据分别描述对象在不同角度下的特征,因此利用多模态数据感知外部世界的方法往往更贴近人类认识世界的主要形式。多模态数据的语义理解与知识表示需要计算机能够感知和理解真实的数据场景,并且能进一步对所感知的知识进行推理,但是对于不同形式的多媒体信息例如动态视频,音频和其他形式的数据,计算机处理起来具有很大的难度,因此该课题具有非常广阔的研究意义。
另一方面,在海量数据中实现跨模态检索服务具有十分广阔的应用场景。跨模态检索推动了传统搜索引擎的发展,并提出了一种新颖的搜索方式,用户可以随意使用不同的数据形式来检索信息,例如使用图片搜索音频歌曲或者通过文本新闻搜索视频。在一些特殊的信息查询场景中跨模态检索也发挥着重要的作用,比如根据证人提供的罪犯肖像信息在视频中查找有关该罪犯的相关面部图像,在旅游的时候提交景点的照片检索该景点对应的文字描述等。
目前基于单个模态的数据检索已经得到了广泛而深入的研究,它们可以被划分为基于关键词的检索和基于内容的检索方式,例如文本检索、图像检索、视频检索。由于不同类型的图片、文本和视频等数据急速增长,多模态数据极大的推动了跨模态检索技术的发展,对不同模态数据之间的检索提出了更高的要求。通过跨模态检索可以帮助用户获取目标事件的全面信息,因此在现实世界中具有很大的应用价值,近年来引发了工业界和学术界的广泛关注。
跨模态检索的主要挑战就是保留不同模态之间的语义信息并且计算不同模态数据之间的相似性。首先不同模态之间的数据具有不同的维度,如何降低不同模态之间的异质性对不同模态的数据进行统一的表示是一个很重要的问题,同时如何在多模态数据的最终表示形式中尽可能的涵盖到每个模态数据本身的语义信息而不丢失重要的语义同样是一个面临挑战的问题。针对以上问题目前已经提出了很多方法,但都存在一些不足,具体为:
(1)基于统计相关性分析的方法。基于统计相关性分析的方法为了消除不同模态之间的异质性,通过学习一个公共的子空间来计算不同模态数据之间的相似度。这种方法虽然学习效率较高,易于操作,然而仅通过线性投影很难完全模拟真实世界中跨媒体数据的复杂相关性,而且大多数方法只能模拟两种媒体类型。
(2)基于跨模态哈希的方法。现有的跨模态哈希方法通过学习一个或多个哈希函数将不同模态的数据映射到同一空间进行计算,但由于忽略了包含丰富语义信息的异构数据之间的相似性,许多的跨模态哈希方法都无法获得强大的哈希码,导致检索性能不佳。
(3)基于深度学习的方法。基于深度学习的方法能够很好的保留不同语义的样本之间的区别,通过将标签空间和公共表示空间中样本的判别损失最小化来学习判别特征。但是之前的大多数方法都是将图片和文本单独嵌入到一个公共空间来比较它们的相似性,往往很少考虑到图像和文本之间的相互关系。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种基于多层注意力机制的跨模态检索模型的构建方法及应用,用以解决现有的跨模态检索方法未充分利用原始数据中的语义信息,只考虑了单个模态的关系,没有考虑到每个模态内部以及不同模态之间存在的语义关系,导致检索准确度较低的技术问题。
为了实现上述目的,第一方面,本发明提供了一种基于多层注意力机制的跨模态检索模型的构建方法,包括以下步骤:
S1、搭建跨模态检索模型;跨模态检索模型包括级联的特征提取模块、多模态融合模块和公共表示模块;
在训练阶段,特征提取模块用于分别对预采集的图文数据集中各图像文本数据对的图像模态和文本模态的数据进行特征提取,得到各图像文本数据对的文本特征和图像特征;其中,图文数据集包括多个图像文本数据对及其对应的语义标签矢量;图像文本数据对包括图像模态的数据及其对应的文本模态的数据;
多模态融合模块用于分别对各图像文本数据对,基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信息,以及学习其文本特征和图像特征之间的全局特征对应关系,以实现其文本特征和图像特征的进一步提取,并输出至公共表示模块中;
公共表示模块用于将多模态融合模块输入的文本特征和图像特征分别映射至公共表示空间,得到各图像文本数据对的语义表示矢量;图像文本数据对的语义表示矢量包括图像模态数据的语义表示矢量和文本模态数据的语义表示矢量;
特征提取模块包括第一输入端和第二输入端,图像模态的数据经第一输入端输入到跨模态检索模型中,文本模态的数据经第二输入端输入到跨模态检索模型中;公共表示模块包括第一输出端和第二输出端,图像文本数据对的语义表示矢量经第一输出端从跨模态检索模型输出,文本模态数据的语义表示矢量经第二输出端从跨模态检索模型输出;
S2、基于各图像文本数据对的语义标签矢量和语义表示矢量,计算图像模态和文本模态间的不变性损失、标签空间损失、以及公共表示空间中不同模态间和各个模态内的判别损失,加以不同的权重,得到跨模态检索模型的损失函数;
S3、通过最小化跨模态检索模型的损失函数来对跨模态检索模型进行训练,得到训练好的跨模态检索模型。
进一步优选地,多模态融合模块包括多模态融合模块包括多个级联的MCA层以及位于最后一级MCA层之后的降维单元;
MCA层用于基于协同注意力机制学习文本特征和图像特征之间的全局特征对应关系,以及基于自注意力机制学习文本特征和图像特征内细粒度的上下文局部信息;
降维单元用于分别对多模态融合模块输入的文本特征和图像特征进行降维。
进一步优选地,MCA层包括第一自注意力单元、第一全连接层、第二自注意力单元、协同注意力单元和第二全连接层;第一自注意力单元的输出端与第一全连接层的输入端相连;第二自注意力单元的输出端与协同注意力单元的输入端相连;协同注意力单元的输出端与第二全连接层的输入端相连;
第一自注意力单元用于基于自注意力机制提取文本模态内部的潜在语义关系,以学习文本特征内细粒度的上下文局部信息,从而进一步对文本特征进行提取;
第二自注意力单元用于基于自注意力机制提取图像模态内部的潜在语义关系,以学习图像特征内细粒度的上下文局部信息,从而进一步对图像特征进行提取;
协同注意力单元用于基于协同注意力机制提取图像模态和文本模态之间的语义关系,实现文本特征引导图像特征的学习过程,从而学习文本特征和图像特征之间的全局特征对应关系,以将文本特征融合到图像特征中。
进一步优选地,对于非最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端、以及下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;
对于最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端以及降维单元的输入端相连;第二全连接层的输出端与降维单元的输入端相连。
进一步优选地,对于非最后一级的MCA层,其第一全连接层的输出端与下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;
对于最后一级的MCA层,其第一全连接层的输出端分别与其前各级的协同注意力单元的输入端、以及降维单元的输入端相连;第二全连接层的输出端与降维单元的输入端相连。
第二方面,本发明提供了一种基于多层注意力机制的跨模态检索方法,包括:
基于采用上述跨模态检索模型的构建方法构建所得的跨模态检索模型将目标查询数据映射到公共表示空间后,得到目标查询数据的语义表示矢量,通过计算目标查询数据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目标检索数据与数据库中的数据的相似度,得到对应的检索排序结果;
其中,数据库中数据的语义表示矢量采用上述跨模态检索模型映射得到。
进一步优选地,采用上述跨模态检索模型的构建方法构建所得的跨模态检索模型中,特征提取模块的第一输入端到公共表示模块的第一输出端形成图像通道,用于将图像模态的数据映射至公共表示空间中;特征提取模块的第二输入端到公共表示模块的第二输出端形成文本通道,用于将文本模态的数据映射至公共表示空间中;
目标查询数据或数据库中的数据根据其模态采用对应的通道映射到公共表示空间中。
进一步优选地,计算目标查询数据与数据库中与其模态不同的数据的相似度,得到跨模态数据相似度;计算目标查询数据与数据库中与其模态不同的数据的相似度,得到同模态数据相似度;通过对跨模态数据相似度和同模态数据相似度进行加权平均,得到目标检索数据与数据库中的数据的相似度。
第三方面,本发明还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的任一种跨模态检索模型的构建方法和/或如上所述的跨模态检索方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明提供了一种基于多层注意力机制的跨模态检索模型的构建方法,通过考虑不同模态之间的相互影响,将注意力机制级联成多层神经网络,基于不同注意力机制学习文本和图像之间的全局特征对应关系以及文本与图像内细粒度的上下文局部信息,本发明充分利用了原始数据中的语义信息,将多模态特征进行融合,大大提高了跨模态检索的准确度。
2、本发明所提供的基于多层注意力机制的跨模态检索模型的构建方法,其中,多模态融合模块包括自注意力单元和协同注意力单元,通过自注意力单元学习模态内部的上下文局部信息,并通过协同注意力单元学习不同模态数据的全局交互信息,然后将自注意力单元以及协同注意力单元堆叠成多层神经网络结构,利用文本特征编码后的结果指导图像特征的学习过程。
3、本发明所提供的基于多层注意力机制的跨模态检索模型的构建方法,计算标签空间损失、公共表示空间中各个模态内和不同模态间的损失、以及图像和文本模态间的不变性损失,并加以不同的权重,得到检索模型的损失函数;通过最小化损失函数来优化检索模型的参数,得到优化后的检索模型。由于采用端到端的基于深度学习的模型框架,充分利用了多模态数据的全局信息来学习不同模态之间的细粒度特征,不仅保留了不同语义数据样本的判别性,而且消除了跨模态数据之间的差异性。
4、由于浅层模型的学习能力有限,不能更深层次的捕捉不同模态数据的语义关联,本发明提出了一种基于多层注意力机制进行跨模态语义融合的方法,该方法将注意力机制级联成多层神经网络,利用不同的注意力单元学习文本和图像之间的全局特征对应关系以及文本与图像内细粒度的上下文局部信息,从而提高跨模态检索性能。
附图说明
图1为本发明实施例1提供的基于多层注意力机制的跨模态检索模型的构建方法流程示意图;
图2为本发明实施例1提供的跨模态检索模型结构示意图;
图3为本发明实施例1提供的自注意力单元SA的结构示意图;
图4为本发明实施例1提供的协同注意力单元GA的结构示意图;
图5为本发明实施例1提供的基于堆叠结构的多模态融合模块的结构示意图;
图6为本发明实施例1提供的基于编码器解码器结构的多模态融合模块的结构示意图;
图7为本发明实施例1提供的MCA层结构示意图;其中,(a)为第一种MCA层结构示意图,(b)为第二种MCA层结构示意图,(c)为第三种MCA层结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1、
一种基于多层注意力机制的跨模态检索模型的构建方法,如图1所示,包括以下步骤:
S1、搭建跨模态检索模型;
具体地,如图2所示,跨模态检索模型包括级联的特征提取模块、多模态融合模块和公共表示模块;
对于特征提取模块:
在训练阶段,特征提取模块用于分别对预采集的图文数据集中各图像文本数据对的图像模态和文本模态的数据进行特征提取,得到各图像文本数据对的文本特征和图像特征;其中,图文数据集包括多个图像文本数据对及其对应的语义标签矢量;图像文本数据对包括图像模态的数据及其对应的文本模态的数据。本实施例的图文数据集包括n个图片文本数据对,记为
Figure BDA0003234132650000091
其中,
Figure BDA0003234132650000092
是第i个图像模态的数据,
Figure BDA0003234132650000093
是第i个文本模态的数据。每个图像文本对对应一个语义标签矢量lablei=[lable1i,lable2i,…,lableci],c代表目录的个数,如果第i个实例属于第j个目录,则标签矢量中对应的分量为1,否则为0。需要说明的是,图文数据集中的图像模态的数据和文本模态的数据均为经过预处理后的数据;其中,图像模态的数据的预处理包括尺寸调整、裁剪、归一化等;文本模态的数据的预处理包括去噪、分词、过滤停词等。
具体地,特征提取模块包括第一输入端和第二输入端,图像模态的数据经第一输入端输入到跨模态检索模型中,文本模态的数据经第二输入端输入到跨模态检索模型中;特征提取模块包括两个并行的子网络分别对图像模态的数据和文本模态的数据进行特征提取;其中,第一子网络的输入端为特征提取模块的第一输入端,用于提取图像模态的数据;第二子网络的输入端为特征提取模块的第二输入端,用于提取文本模态的数据。
图片模态的数据的特征提取:第一子网络包括串联的图像提取子网络和第一全连接层;其中,通常采用卷积神经网络作为图像提取子网络,得到图像模态的数据的特征表示形式。卷积神经网络中的卷积核与输入图像之间会进行一个卷积运算,将读取的图像信息转化成特征映射中的矢量,此外由于采用端到端的训练方式,模型需要经过池化层对各层次的特征维度进行控制,最终将图片表示成特定维度的特征矢量。卷积神经网络对多个卷积层进行堆叠,可以通过更抽象的方式来提取图像特征。由于卷积神经网络在图像识别领域具有十分独特的优势,在跨模态检索过程中可以利用特定的卷积神经网络对图片进行特征提取,本实施例采用VGG16模型作为图像特征提取的工具,将图片进行预处理后输入到该模型中,然后使用模型倒数第二层输出的4096维度的矢量作为图像特征提取结果。
文本模态的数据的特征提取:第二子网络包括串联的文本提取子网络和第二全连接层;文本提取子网络通常采用基于语言模型的特征提取方式,将文本信息从一个无结构的原始文本转化为多维矢量,本实施例中,文本提取子网络为BERT。BERT利用Transformer结构构造了一个多层双向的encoder网络,能将原始文本直接转为具有语义特征的高层语义矢量形式,在自然语言处理任务中得到了不错的效果。在BERT使用过程中,首先需要加载中英文预训练模型,然后将预处理之后的文本输入到预训练模型中获得特定维度的矢量,最后将生成的多维特征矢量输出到跨模态检索模型中进行注意力学习。
对于多模态融合模块:
在训练阶段,多模态融合模块用于分别对各图像文本数据对,基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信息,以及学习其文本特征和图像特征之间的全局特征对应关系,以实现其文本特征和图像特征的进一步提取,并输出至公共表示模块中;
本发明在跨模态检索过程中引入了一个多层级联的注意力机制,每一层称为一个MCA单元,同时每层有一个或者多个GA和SA组成,SA代表自注意力单元,用于提取每个模态内部的潜在语义关系,GA代表协同注意力单元,用于提取不同模态之间的语义关系。通过SA与GA的串联可以形成一个MCA层,然后将多个MCA进行串联可以构成多层注意力机制,这种复杂的多层结构相比于浅层模型能够更好的实现复杂的推理运算。考虑到图像模态对文本模态的表示形式的影响,本发明引入注意力机制、多层注意力机制将输入的文本特征和图像特征进行进一步的融合。其中,注意力机制包括自注意力与协同注意力机制,自身注意力与协同注意力机制可以用来挖掘图像模态和文本模态的内容相似性,通过融合多模态信息提升跨模态检索的性能。多层注意力机制可以实现多模态特征之间的细粒度交互。具体地,多模态融合模块包括多模态融合模块包括多个级联的MCA层以及位于最后一级MCA层之后的降维单元;MCA层用于基于协同注意力机制学习文本特征和图像特征之间的全局特征对应关系,以及基于自注意力机制学习文本特征和图像特征内细粒度的上下文局部信息。此外,特征向量通过多个MCA层以后,维度通常比较高,为了降低提取的特征维度,需要再通过一个降维单元进行降维;本实施中,降维单元为多层感知机MLP。
具体地,MCA层包括第一自注意力单元SA1、第一全连接层FF1、第二自注意力单元SA2、协同注意力单元GA和第二全连接层FF2;第一自注意力单元SA1的输出端与第一全连接层FF1的输入端相连;第二自注意力单元SA2的输出端与协同注意力单元GA的输入端相连;协同注意力单元GA的输出端与第二全连接层FF2的输入端相连;其中,第一自注意力单元SA1用于基于自注意力机制提取文本模态内部的潜在语义关系,以学习文本特征内细粒度的上下文局部信息,从而进一步对文本特征进行提取;第二自注意力单元SA2用于基于自注意力机制提取图像模态内部的潜在语义关系,以学习图像特征内细粒度的上下文局部信息,从而进一步对图像特征进行提取;协同注意力单元GA用于基于协同注意力机制提取图像模态和文本模态之间的语义关系,实现文本特征引导图像特征的学习过程,从而学习文本特征和图像特征之间的全局特征对应关系,以将文本特征融合到图像特征中。将文本特征输入到多模态融合模块中,在每个MCA层中首先输入到第一自注意力单元SA1、然后再输入到第一全连接层FF1中;将图像特征输入到到多模态融合模块中,在每个MCA层中首先通过第二自注意力单元SA2,接着再输入到协同注意力单元GA中,最后输入到第二全连接层FF2中。多个MCA层进行级联可以构成多层注意力机制,这种复杂的多层结构相比于浅层模型能够更好的实现复杂的推理运算。本实施例中,MCA层的个数为L个,特征提取模块得到的图像特征X和文本特征Y输入到多模态融合模块中进行注意力学习。对于MCA层,每一层的输入都是前一层的输出,即[X(l),Y(l)]=MCA(l)([X(l-1),Y(l-1)]),其中,l=2,3,…,L。
具体地,如图3所示为自注意力单元SA,如图4所示为协同注意力单元GA;自注意力单元用来学习模态内部的关系,而协同注意力单元用来学习不同模态之间关系的注意力机制,其计算过程与自注意力单元类似,主要区别在于输入的是X和Y两个不同模态的数据。具体地,本实施例中,自注意力单元SA和协同注意力单元GA均由多头注意力层、前馈层和归一化层(Add&LayerNorm)构成。
自注意力机制采用Scaled Dot-Product Attention计算模态内部信息的注意力机制,其中,Q、K、V分别代表问题、关键词和值,具体做法是先点乘K和Q,然后除以
Figure BDA0003234132650000121
其中dk代表K和Q的维度,一般设置成相同大小,然后经过softmax得到V的权重,最后进行加权求和得到注意力结果,具体表示为:
Figure BDA0003234132650000122
若给定查询Q∈R1×d以及n个关键词key和值value对,其中,d为问题Q的维度,则K∈Rn×d,V∈Rn×d,其中
Figure BDA0003234132650000123
是缩放因子,使用点乘的方式可以实现更加快速、高效的运算。自注意力单元SA将输入的特征矢量(图像特征X或文本特征Y)分别作为K,V,Q,然后输入到多头注意力层中,通过多头注意力逐点学***行的头部,每个头部对应一个不同的缩放注意力,最后得到不同的Attention,可以更加有效的挖掘出多个维度的特征。具体地,多头注意力层的输出结果表示为:
MultiHead(Q,K,V)=[head1,head2,head3···headh]Wo
headj=Attention(QWj Q,KWj K,VWj V),j=1,2,…,h
其中,Wj Q,Wj K,
Figure BDA0003234132650000131
是第j个头部的投影矩阵,用于生成第j个头部的注意力结果;
Figure BDA0003234132650000132
用于将结果进行拼接;dh代表每个注意力头部的输出维度,一般dh=d/h;设置Q=[q1,q2....,qm]∈Rm×d,则得到第j个头部的输出特征F∈Rm×d
同理,协同注意力单元GA由输入的图像特征X作为Q,文本特征Y作为K和V输入到多头注意力层中,逐点学习两者之间的关系,最终实现文本特征Y来指导图像特征X的学习过程。
需要说明的是,相比于浅层注意力模型本发明提出的模型需要对MCA进行多层堆叠生成更加复杂的网络进行交互学习,从而产生更具判别力的文本和视觉特征。多模态融合模块有两种设计方式,一种方式采用堆叠结构,即每个MCA层的输出作为下一级MCA层的输入;另一种方式是采用编码器解码器结构,将多个MCA层组成的编码器的最后一层的输出作为解码器每一层的输入,以实现根据文本特征来指导图像特征的学习。
具体地,如图5所示为基于堆叠结构的多模态融合模块的结构示意图(以L=3为例);其中,对于非最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端、以及下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;对于最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端以及降维单元的输入端相连;第二全连接层的输出端与降维单元的输入端相连。基于堆叠结构的多模态融合模块在每个MCA层中使用与该层对应的文本特征与图像特征进行融合,然后将学习的结果输入到下一个MCA层中,通过将多个MCA层进行堆叠使模型具备更深层次的推理能力。
如图6所示为基于编码器解码器结构的多模态融合模块的结构示意图(以L=3为例);其中,对于非最后一级的MCA层,其第一全连接层的输出端与下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;对于最后一级的MCA层,其第一全连接层的输出端分别与其前各级的协同注意力单元的输入端、以及降维单元的输入端相连;第二全连接层的输出端与降维单元的输入端相连。对于基于编码器解码器结构的多模态融合模块,首先将文本特征Y作为输入,然后通过多个第一自注意力单元SA1学习得到文本特征的最终表示Y’,将Y’输入到各级MCA层中的协同注意力单元GA当中来指导图片模态X的学习过程,同时图像模态X通过第二自注意力单元SA2选择性的提取自身的关键信息。
两种结构下的多模态融合模块的最大区别在于是否采用最终的文本特征表示形式来指导图像进行学习,基于编码器解码器结构的多模态融合模块采用最终的文本形式进行协同注意力学习能够实现更深层次的语义交互理解。
需要说明的是,对一张图或者文本进行全局特征表示也许会损失一些关键信息,而这些信息可能涉及到图像的局部区域或者文本的某个单词,为了解决上述问题,本发明采用注意力机制。而单层注意力机制只能够学习到多模态之间粗糙的交互,而多层注意力机制可以实现多模态特征之间的细粒度交互,因此本发明使用的是一种多层级联的注意力模型。而对于本发明所提出的MCA层结构,MCA层即组件模块化共同注意层,可以使用不同的自注意力单元SA与协同注意力单元GA可以组成MCA层结构,下面列举三种形式,其中,第一种MCA层结构如图7中的(a)图所示,只是在图像模态中单独使用了一个协同注意力单元GA而文本特征不做处理,通过协同注意力机制实现文本特征指导图像特征的学习过程,捕捉两种模态数据之间的细微交互作用。第二种MCA层结构如图7中的(b)图所示,在文本模态中使用自注意力单元SA选择性的关注文本内部之间的关系,同时在图片模态中使用协同注意力单元GA用来融合文本模态和图片模态之间的信息,这种方式不仅考虑模态内部的潜在语义特征,也考虑了模态间的语义关联。第三种MCA层结构为本发明所采用的结构,如图7中的(c)图所示,在文本模态中使用第一自注意力单元SA1进行特征提取,同时在另一个模态中分别使用一个第二自注意力单元SA2和协同注意力单元GA,相比于其他两种结构,本发明所采用的MCA层结构将图像模态自身的注意力机制也考虑进来,以获取更加丰富的图像特征表示形式。
对于公共表示模块:
公共表示模块用于将多模态融合模块输入的文本特征和图像特征分别映射至公共表示空间,得到各图像文本数据对的语义表示矢量;图像文本数据对的语义表示矢量包括图像模态数据的语义表示矢量和文本模态数据的语义表示矢量;公共表示模块包括第一输出端和第二输出端,图像文本数据对的语义表示矢量经第一输出端从跨模态检索模型输出,文本模态数据的语义表示矢量经第二输出端从跨模态检索模型输出;
具体地,本实施例中,公共表示模块为第三全连接层,通过共享全连接层将提取的图像数据特征和文本数据特征映射至公共表示空间。
S2、基于各图像文本数据对的语义标签矢量和语义表示矢量,计算图像模态和文本模态间的不变性损失、标签空间损失、以及公共表示空间中不同模态间和各个模态内的判别损失,加以不同的权重,得到跨模态检索模型的损失函数;
具体地,根据深度学习的相关理论,定义Loss是模型总的目标函数,它是三个损失函数的线性加权,分别是标签空间损失L1(即标签空间与公共表示空间之间的损失),公共表示空间中不同模态间和各个模态内的判别损失L2,以及图像模态和文本模态间的不变性损失L3(即所有图片文本表示对之间的距离损失)。由于三个损失L1、L2、L3对应的影响不同,给它们赋予不同的权重,具体地,跨模态检索模型的损失函数为:
Loss=λL1+μL2+ηL3
其中,λ、μ、η分别为L1、L2、L3的权重系数。
具体地,在第三全连接层之后加一个线性分类器来预测图像模态数据和文本模态数据的类别,并与真实的类别相比较,从而计算得到标签空间损失。标签空间损失用于衡量标签空间与公共表示空间之间的损失,即图像模态数据和文本模态数据的预测类别与对应真实类别(即语义标签)之间的差异,具体为:
Figure BDA0003234132650000161
其中,||·||F代表Frobenius范数;α和β分别为图像模态的数据和文本模态的数据的语义表示矢量所对应的权重;由于图像和文本提取高层语义矢量的方式有所区别,使得它们映射到公共表示空间中特征的预测损失不一致,所以对图像和文本预测标签加以不同的权重,以平衡预测损失的差异;P是线性分类器的投影矩阵;U=[u1,u2,…,un]为公共表示空间中图文数据集的图像模态的数据的预测表示矩阵,ui为图文数据集中第i个图像模态的数据的语义表示矢量;V=[v1,v2,…,vn]为公共表示空间中图文数据集的文本模态的数据的预测表示矩阵,vi为图文数据集中第i个文本模态的数据的语义表示矢量;Lable=[lable1,lable2,…,lablen]为语义标签矢量所对应的矩阵;i=1,2,…,n。
公共表示空间中不同模态间和各个模态内的判别损失为:
Figure BDA0003234132650000171
其中,Γij=cos(ui,vj),Φij=cos(ui,uj),Θij=cos(vi,vj),
Figure BDA0003234132650000172
Figure BDA0003234132650000173
cos是用来衡量相似度的余弦函数,sgn是符号函数,若两个元素属于同一个类则为1,否则为0;ui为图文数据集中第i个图像模态的数据的语义表示矢量;vj为图文数据集中第j个文本模态的数据的语义表示矢量;i=1,2,…,n,j=1,2,…,n。
采用衡量模态间相似度的似然函数表示如下:
Figure BDA0003234132650000174
L2函数用来衡量公共表示空间相似度,并且是一个学习判别特征的准则,它由三部分构成,第一部分是衡量图像模态的数据和文本模态的数据之间的相似度,第二部分和第三部分分别计算图像模态的数据和文本模态的数据内部的相似度。由于第一部分需要最大化似然函数即最小化似然函数的对数取负号,可以推出余弦相似度cos(ui,vj)越大,Γij越大,从而衡量模态间相似度的概率p(1|ui,vj)越大。
图像模态和文本模态间的不变性损失L3为所有图像文本数据对的语义表示矢量(ui,vi)之间的距离损失,具体为:
Figure BDA0003234132650000175
S3、通过最小化跨模态检索模型的损失函数来对跨模态检索模型进行训练,得到训练好的跨模态检索模型。
本发明通过使标签空间和公共表示空间两者中的判别损失均最小化来监督模型学习判别特征。同时,通过最小化不同模态间不变性损失,并使用权重共享策略来学习公共表示空间中的模态不变特征。按照这种学习策略,成对的标签信息和分类信息都得到了尽可能充分的利用,以确保学习到的表示在语义结构上具有判别性,并且在所有模态中均不变。
实施例2、
一种基于多层注意力机制的跨模态检索方法,包括:
基于采用实施例1所提供的跨模态检索模型的构建方法构建所得的跨模态检索模型将目标查询数据映射到公共表示空间后,得到目标查询数据的语义表示矢量,通过计算目标查询数据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目标检索数据与数据库中的数据的相似度,得到对应的检索排序结果;
其中,数据库中数据的语义表示矢量采用上述跨模态检索模型映射得到。
具体地,跨模态检索模型中,特征提取模块的第一输入端到公共表示模块的第一输出端形成图像通道,用于将图像模态的数据映射至公共表示空间中;特征提取模块的第二输入端到公共表示模块的第二输出端形成文本通道,用于将文本模态的数据映射至公共表示空间中;目标查询数据或数据库中的数据根据其模态采用对应的通道映射到公共表示空间中。
优选地,在实际使用时,可以添加同模态数据的相似性来提高就检索的准确率,具体为:计算目标查询数据与数据库中与其模态不同的数据的相似度,得到跨模态数据相似度;计算目标查询数据与数据库中与其模态不同的数据的相似度,得到同模态数据相似度;通过对跨模态数据相似度和同模态数据相似度进行加权平均,得到目标检索数据与数据库中的数据的相似度,表示如下:
S=εSimilarity(x,U')+γSimilarity(x,V')
其中,ε和γ均为权重;Similarity(·)为衡量相似度的函数;x为目标查询数据,可以为图像模态的数据,也可以为文本模态的数据;U'=[u'1,u'2,…,u'n]为公共表示空间中数据库的图像模态的数据的表示矩阵,ui'为数据库中第i个图像模态的数据的语义表示矢量;V'=[v'1,v'2,…,vn']为公共表示空间中数据库的图像模态的数据的表示矩阵,vi'为数据库中第i个图像模态的数据的语义表示矢量;i=1,2,…,n。其中,数据库可以为上述图文数据集。S即为最终的返回结果,然后对其进行排序,取排序靠前的数据为最终结果。
相关技术方案同实施例1,这里不做赘述。
实施例3、
一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现实施例1所述的跨模态检索模型的构建方法和/或实施例2所述的跨模态检索方法。
相关技术方案同实施例1和实施例2,这里不做赘述。
需要说明的是,本发明所使用的对存储介质、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
综上,本发明提出了一种基于多层注意力机制进行跨模态语义融合的方法,在跨模态检索过程中引入了多层注意力机制提取文本和图像数据的细粒度特征,学习单个模态数据内部和不同模态之间的潜在语义关系。通过在模型中使用自注意力单元学习模态内部的上下文局部信息,使用协同注意力单元学习不同模态数据的全局交互信息,然后将自注意力单元以及协同注意力单元堆叠成多层神经网络结构,利用文本特征编码后的结果指导图像特征的学习过程。最后构造一个公共空间,其中来自相同语义类别的样本在空间应该相近,即使这些数据可能来自不同的模态,并且来自不同语义类别的样本应该相距较远。这里采用共享神经网络的方法将不同模态的数据映射到一个公共空间进行表示,借助分类器输出分类结果。在模型训练过程中首先需要最小化每个图像文本对之间的距离,然后最小化标签空间和公共表示空间中的判别损失以便学习多模态数据的判别表示特征,最后为了减少跨模态差异需要最小化模态内和模态间的损失。训练好模型以后将目标检索数据利用优化后的检索模型映射到公共表示空间,计算目标检索数据与图文数据集中数据之间的相似度,得到对应的检索排序结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多层注意力机制的跨模态检索模型的构建方法,其特征在于,包括以下步骤:
S1、搭建跨模态检索模型;所述跨模态检索模型包括级联的特征提取模块、多模态融合模块和公共表示模块;
在训练阶段,所述特征提取模块用于分别对预采集的图文数据集中各图像文本数据对的图像模态和文本模态的数据进行特征提取,得到各图像文本数据对的文本特征和图像特征;其中,所述图文数据集包括多个图像文本数据对及其对应的语义标签矢量;所述图像文本数据对包括图像模态的数据及其对应的文本模态的数据;
所述多模态融合模块用于分别对各图像文本数据对,基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信息,以及学习其文本特征和图像特征之间的全局特征对应关系,以实现其文本特征和图像特征的进一步提取,并输出至所述公共表示模块中;
所述公共表示模块用于将所述多模态融合模块输入的文本特征和图像特征分别映射至公共表示空间,得到各图像文本数据对的语义表示矢量;图像文本数据对的语义表示矢量包括图像模态数据的语义表示矢量和文本模态数据的语义表示矢量;
所述特征提取模块包括第一输入端和第二输入端,图像模态的数据经所述第一输入端输入到所述跨模态检索模型中,文本模态的数据经所述第二输入端输入到所述跨模态检索模型中;所述公共表示模块包括第一输出端和第二输出端,所述图像文本数据对的语义表示矢量经所述第一输出端从所述跨模态检索模型输出,所述文本模态数据的语义表示矢量经所述第二输出端从所述跨模态检索模型输出;
S2、基于各图像文本数据对的语义标签矢量和语义表示矢量,计算图像模态和文本模态间的不变性损失、标签空间损失、以及公共表示空间中不同模态间和各个模态内的判别损失,加以不同的权重,得到所述跨模态检索模型的损失函数;
S3、通过最小化所述跨模态检索模型的损失函数来对所述跨模态检索模型进行训练,得到训练好的所述跨模态检索模型。
2.根据权利要求1所述的跨模态检索模型的构建方法,其特征在于,所述多模态融合模块包括多个级联的MCA层以及位于最后一级MCA层之后的降维单元;
所述MCA层用于基于协同注意力机制学习文本特征和图像特征之间的全局特征对应关系,以及基于自注意力机制学习文本特征和图像特征内细粒度的上下文局部信息;
所述降维单元用于分别对最后一级MCA层输入的文本特征和图像特征进行降维。
3.根据权利要求2所述的跨模态检索模型的构建方法,其特征在于,所述MCA层包括第一自注意力单元、第一全连接层、第二自注意力单元、协同注意力单元和第二全连接层;所述第一自注意力单元的输出端与所述第一全连接层的输入端相连;所述第二自注意力单元的输出端与所述协同注意力单元的输入端相连;所述协同注意力单元的输出端与所述第二全连接层的输入端相连;
所述第一自注意力单元用于基于自注意力机制提取文本模态内部的潜在语义关系,以学习文本特征内细粒度的上下文局部信息,从而进一步对文本特征进行提取;
所述第二自注意力单元用于基于自注意力机制提取图像模态内部的潜在语义关系,以学习图像特征内细粒度的上下文局部信息,从而进一步对图像特征进行提取;
所述协同注意力单元用于基于协同注意力机制提取图像模态和文本模态之间的语义关系,实现文本特征引导图像特征的学习过程,从而学习文本特征和图像特征之间的全局特征对应关系,以将文本特征融合到图像特征中。
4.根据权利要求3所述的跨模态检索模型的构建方法,其特征在于,对于非最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端、以及下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;
对于最后一级的MCA层,其第一全连接层的输出端分别与协同注意力单元的输入端以及所述降维单元的输入端相连;第二全连接层的输出端与所述降维单元的输入端相连。
5.根据权利要求3所述的跨模态检索模型的构建方法,其特征在于,对于非最后一级的MCA层,其第一全连接层的输出端与下一级MCA层的第一自注意力单元的输入端相连;第二全连接层的输出端与下一级MCA层的第二自注意力单元的输入端相连;
对于最后一级的MCA层,其第一全连接层的输出端分别与其前各级的协同注意力单元的输入端、以及所述降维单元的输入端相连;第二全连接层的输出端与所述降维单元的输入端相连。
6.一种基于多层注意力机制的跨模态检索方法,其特征在于,包括:
基于采用权利要求1-5任意一项所述的跨模态检索模型的构建方法构建所得的跨模态检索模型将目标查询数据映射到公共表示空间后,得到目标查询数据的语义表示矢量,通过计算目标查询数据的语义表示矢量与数据库中数据的语义表示矢量的相似度来计算目标检索数据与数据库中的数据的相似度,进而得到对应的检索排序结果;
其中,所述数据库中数据的语义表示矢量采用所述跨模态检索模型映射得到。
7.根据权利要求6所述的跨模态检索方法,其特征在于,所述跨模态检索模型中,特征提取模块的第一输入端到公共表示模块的第一输出端形成图像通道,用于将图像模态的数据映射至公共表示空间中;特征提取模块的第二输入端到公共表示模块的第二输出端形成文本通道,用于将文本模态的数据映射至公共表示空间中;
目标查询数据或数据库中的数据根据其模态采用对应的通道映射到公共表示空间中。
8.根据权利要求6所述的跨模态检索方法,其特征在于,计算目标查询数据与数据库中与其模态不同的数据的相似度,得到跨模态数据相似度;计算目标查询数据与数据库中与其模态不同的数据的相似度,得到同模态数据相似度;通过对所述跨模态数据相似度和所述同模态数据相似度进行加权平均,得到所述目标检索数据与数据库中的数据的相似度。
9.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-5任意一项所述的跨模态检索模型的构建方法和/或权利要求6-8任意一项所述的跨模态检索方法。
CN202110995974.8A 2021-08-27 2021-08-27 基于多层注意力机制的跨模态检索模型的构建方法及应用 Pending CN113779361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110995974.8A CN113779361A (zh) 2021-08-27 2021-08-27 基于多层注意力机制的跨模态检索模型的构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110995974.8A CN113779361A (zh) 2021-08-27 2021-08-27 基于多层注意力机制的跨模态检索模型的构建方法及应用

Publications (1)

Publication Number Publication Date
CN113779361A true CN113779361A (zh) 2021-12-10

Family

ID=78839537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110995974.8A Pending CN113779361A (zh) 2021-08-27 2021-08-27 基于多层注意力机制的跨模态检索模型的构建方法及应用

Country Status (1)

Country Link
CN (1) CN113779361A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114661933A (zh) * 2022-03-08 2022-06-24 重庆邮电大学 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN114840734A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN114880514A (zh) * 2022-07-05 2022-08-09 人民中科(北京)智能技术有限公司 图像检索方法、装置以及存储介质
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及***
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN115033729A (zh) * 2022-06-23 2022-09-09 天津理工大学 一种基于模态间关系对齐的跨模态行人检索模型、方法、以及计算机设备
CN115080699A (zh) * 2022-07-04 2022-09-20 福州大学 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN115082689A (zh) * 2022-04-27 2022-09-20 清华大学 跨模态视觉对象检索方法及装置
CN115098620A (zh) * 2022-07-26 2022-09-23 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN115512368A (zh) * 2022-08-22 2022-12-23 华中农业大学 一种跨模态语义生成图像模型和方法
CN115587160A (zh) * 2022-09-14 2023-01-10 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及***
CN115909317A (zh) * 2022-07-15 2023-04-04 广东工业大学 一种三维模型-文本联合表达的学习方法及***
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN116383342A (zh) * 2023-04-07 2023-07-04 四川大学 一种在噪声标签下鲁棒的跨域文本检索方法
CN116484878A (zh) * 2023-06-21 2023-07-25 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN117278150A (zh) * 2023-11-23 2023-12-22 成都工业学院 一种室内无线网络信号测量计算方法、设备和介质
WO2024045929A1 (zh) * 2022-09-01 2024-03-07 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备和存储介质

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114661933A (zh) * 2022-03-08 2022-06-24 重庆邮电大学 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN115082689A (zh) * 2022-04-27 2022-09-20 清华大学 跨模态视觉对象检索方法及装置
CN114840734A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN115035512B (zh) * 2022-05-24 2023-04-18 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN115033729A (zh) * 2022-06-23 2022-09-09 天津理工大学 一种基于模态间关系对齐的跨模态行人检索模型、方法、以及计算机设备
CN115033729B (zh) * 2022-06-23 2024-06-28 天津理工大学 一种基于模态间关系对齐的跨模态行人检索模型、方法、以及计算机设备
CN115080699A (zh) * 2022-07-04 2022-09-20 福州大学 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN114880514A (zh) * 2022-07-05 2022-08-09 人民中科(北京)智能技术有限公司 图像检索方法、装置以及存储介质
CN114880514B (zh) * 2022-07-05 2022-11-01 人民中科(北京)智能技术有限公司 图像检索方法、装置以及存储介质
CN115909317A (zh) * 2022-07-15 2023-04-04 广东工业大学 一种三维模型-文本联合表达的学习方法及***
CN115098620B (zh) * 2022-07-26 2024-03-29 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN115098620A (zh) * 2022-07-26 2022-09-23 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及***
CN115512368A (zh) * 2022-08-22 2022-12-23 华中农业大学 一种跨模态语义生成图像模型和方法
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
WO2024045929A1 (zh) * 2022-09-01 2024-03-07 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备和存储介质
CN115587160A (zh) * 2022-09-14 2023-01-10 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及***
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN115937742B (zh) * 2022-11-28 2024-04-12 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN116128846B (zh) * 2023-02-01 2023-08-22 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116028662B (zh) * 2023-02-15 2023-06-13 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116383342A (zh) * 2023-04-07 2023-07-04 四川大学 一种在噪声标签下鲁棒的跨域文本检索方法
CN116383342B (zh) * 2023-04-07 2023-11-14 四川大学 一种在噪声标签下鲁棒的跨域文本检索方法
CN116883886B (zh) * 2023-05-25 2024-05-28 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN116484878A (zh) * 2023-06-21 2023-07-25 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116484878B (zh) * 2023-06-21 2023-09-08 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN117278150A (zh) * 2023-11-23 2023-12-22 成都工业学院 一种室内无线网络信号测量计算方法、设备和介质
CN117278150B (zh) * 2023-11-23 2024-02-09 成都工业学院 一种室内无线网络信号测量计算方法、设备和介质

Similar Documents

Publication Publication Date Title
CN113779361A (zh) 基于多层注意力机制的跨模态检索模型的构建方法及应用
Wang et al. Image captioning with deep bidirectional LSTMs and multi-task learning
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
US10614366B1 (en) System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
Wang et al. Annotating images by mining image search results
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
Li et al. Multi-modal gated recurrent units for image description
CN115238690A (zh) 一种基于bert的军事领域复合命名实体识别方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、***、终端及介质
Cheng et al. Stack-VS: Stacked visual-semantic attention for image caption generation
CN112988970A (zh) 一种服务于智能问答***的文本匹配算法
Parvin et al. Transformer-based local-global guidance for image captioning
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN116628258A (zh) 特征提取与跨模态匹配检索方法、装置、设备及介质
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
Ye et al. Cross-modality pyramid alignment for visual intention understanding
Liu et al. A multimodal approach for multiple-relation extraction in videos
Parvin et al. Image captioning using transformer-based double attention network
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination