CN111639240A - 一种基于注意力感知机制的跨模态哈希检索方法及*** - Google Patents

一种基于注意力感知机制的跨模态哈希检索方法及*** Download PDF

Info

Publication number
CN111639240A
CN111639240A CN202010408302.8A CN202010408302A CN111639240A CN 111639240 A CN111639240 A CN 111639240A CN 202010408302 A CN202010408302 A CN 202010408302A CN 111639240 A CN111639240 A CN 111639240A
Authority
CN
China
Prior art keywords
modal
cross
hash
attention
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010408302.8A
Other languages
English (en)
Other versions
CN111639240B (zh
Inventor
罗昕
姚洪磊
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010408302.8A priority Critical patent/CN111639240B/zh
Publication of CN111639240A publication Critical patent/CN111639240A/zh
Application granted granted Critical
Publication of CN111639240B publication Critical patent/CN111639240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于注意力感知机制的跨模态哈希检索方法及***,包括:对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;将跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;根据由优化后的哈希学习模型得到的待测数据的哈希码,在与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。将注意力机制应用于跨模态哈希检索任务中,提出注意力感知机制的新型注意力方法,实现对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强,提高哈希码的生成质量。

Description

一种基于注意力感知机制的跨模态哈希检索方法及***
技术领域
本发明涉及跨模态哈希检索技术领域,特别是涉及一种基于注意力感知机制的跨模态哈希检索方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着网络多媒体数据的爆发式增长,需要采用现有图像检索与其相关的文本或视频,或者基于文本检索图像或视频,即使用一种模态的数据检索另一种模态的相似样本,与此同时数据的高效存储和快速查询也成为一个难题,基于此,近年来有学者提出使用哈希学习的方式来解决这一难题,因为哈希学习方法能够将原始的高维样本数据使用简单紧凑的二进制哈希码来表示,由此可以极大的压缩数据规模,便于数据保存和互相检索。
跨模态检索技术旨在根据已有的数据检索与之相匹配的不同模态的数据,如通过文本信息在数据库中查找符合文字描述的图片集。现有技术按照是否结合深度学习技术可以分为深度模型和非深度模型,传统的深度跨模态哈希检索模型通常分为三个步骤,首先使用深度网络提取不同模态的特征,然后根据提取到的特征使用全连接网络在交叉熵损失以及样本相似度矩阵的监督下学习哈希函数,最后通过哈希函数将样本转成哈希码保存在数据库中。
现阶段已有很多跨模态哈希检索方法被提出,但是,发明人发现现有技术至少存在以下问题:对于检索任务来说,真实数据往往会存在一些噪声和冗余,而在特征提取时,需要提取最有用的视觉信息,而忽略背景信息,因为背景信息会对检索造成干扰;但是在实际数据中,有价值类别的信息仅覆盖一小部分,大多数区域为背景,而当前的大多数跨模态检索方法会忽略这一问题,直接从原始数据中学习特征,因此可能会被无效或冗余信息所误导,以致生成低质量的哈希码;此外,很多效果较好的深度跨模态哈希检索模型为了提升检索效果,往往会引入参数量较多效果更好的网络模型,如GAN(生成对抗网络)等,但是会大幅度增加训练和检索时间。
发明内容
为了解决上述问题,本发明提出了一种基于注意力感知机制的跨模态哈希检索方法及***,将注意力机制应用于跨模态哈希检索任务中,提出注意力感知机制的新型注意力方法,包含多种模态数据的跨模态数据集实现同时进行特征学习和哈希编码学习,最后将经注意力加权的特征表示反馈到哈希学习模型中用以指导哈希码的生成,实现对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强,提高哈希码的生成质量。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于注意力感知机制的跨模态哈希检索方法,包括:
对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
第二方面,本发明提供一种基于注意力感知机制的跨模态哈希检索***,包括:
特征提取模块,用于对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
哈希学习模块,用于将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
检索模块,用于根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明中跨模态数据集中包含多种模态数据,且多种模态数据实现同时进行特征学习和哈希编码学习,提高哈希码生成的效率。
本发明提出注意力感知机制的新型注意力方法,将注意力机制应用于跨模态哈希检索任务中,两个不同的模态加权,不仅可以突出跨模态数据的关键部分,如图片中物体存在的区域或文本输入中的某个单词,同时还可以抑制冗余或无效部分对检索效果的影响,如图片背景或文本干扰词等,有效地提高哈希码生成的质量,并且能适用于各种多模态数据场景下的跨模态检索任务
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1(a)-(b)为图片模态数据;
图1(c)为公共数据集MIRFlicker-25K中文本标注词频排名前10位的单词;
图1(d)为图1(a)的文本标注数据;
图2为本发明实施例1提供的基于注意力感知机制的跨模态哈希检索方法流程图;
图3为本发明实施例1提供的图像注意力特征提取流程图;
图4为本发明实施例1提供的文本注意力特征提取流程图;
图5为本发明实施例1提供的基于注意力感知机制的跨模态哈希检索***结构图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
目前已有多种跨模态哈希检索方法被提出,但是由于真实数据存在噪声和冗余,而目前的检索方法直接从原始数据中学习特征,会被无效或冗余信息所误导,以致生成低质量的哈希码。以图片和文本两个模态为例,如图1(a)-1(b)所示,对于图1(a)的图片,需要突出蜜蜂和花朵所在区域而忽略后面的背景部分,因为会对检索造成干扰;同样地,对于图1(b)的图片,标签即监督信息为“动物”、“花朵”和“植物生命”,最有用的视觉信息可能是在花朵上悬停的蝴蝶。但是,这些有价值类别的信息仅覆盖整个图像的一小部分,而该图像中的大多数区域是背景;
如图1(c)所示包含了公共数据集MIRFlicker-25K中,文本标注词频排名前10位的单词,可以看到有一半的单词:“explore”,“canon”,“bw”,“nikon”和“2007”都是与图像内容没有直接关系的无效单词;图1(d)则是对图1(a)的文本标注,只有单词“bees”是与检索任务相关的。
由此可以看出,如果不对原始数据中噪声和冗余进行抑制处理,容易导致生成低质量的哈希码,影响检索结果。
Attention机制近年来在计算机视觉领域得到广泛应用,例如对自然语言处理、物体检测、图像识别以及语音识别等方面,但在跨模态检索方向却鲜有人使用。传统的Attention机制用在图像识别上,能够自发寻找图片中需要重点关注的部分,即通过学习生成一个和图片表示(这个图片表示可以是原始图片,也可以是feature map等)大小相同的Mask;对于关注区域,Mask对应位置具有较高的激活值。根据作用区域,Attention模型通常可以分为空间注意力模型和通道注意力模型;空间注意力模型针对feature map中的不同位置生成对应的注意力值,还原到原始图片中就是图片中不同的位置对于任务具有不同程度的影响;通道注意力机制针对feature map中的不同channel生成对应的注意力值,更具有抽象性。
本实施例融合了空间注意力机制,将注意力机制应用于跨模态哈希检索任务中,在传统的注意力机制的基础上提出一种新的注意力方法,称为注意力感知机制,用于两个不同的模态加权;
即本实施例中的基于注意力感知机制的跨模态哈希检索方法,对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强,进而提取注意力矩阵,对于生成哈希码的质量有较好的提升效果,可用于各种多模态数据场景下的跨模态信息检索,如图2所示,具体包括以下步骤:
S1:对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
S2:将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
S3:根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
所述步骤S1中,跨模态数据集包括多种模态数据,在本实施例中,以图像模态数据和文本模态数据为例,可以理解的,该模态类型可以扩展其他模态,如视频、语音等。
将跨模态数据集划分为训练集和测试集,对训练集中的图像和文本的跨模态数据对采用两个并列的卷积神经网络同时进行特征提取和注意力特征提取;具体为:获取初始注意力矩阵,以最小化损失函数对卷积神经网络进行训练,输出改进后的注意力矩阵;将注意力矩阵与卷积神经网络输出的特征矩阵进行点乘操作,得到经注意力特征加权的跨模态特征。
其中,对训练集中的图像进行图像特征提取和图像注意力特征提取,具体包括:
S1-1:图像特征提取过程采用卷积神经网络CNN_F作为基础的网络结构,在第五个卷积层Conv5输出图像特征矩阵;
S1-2:图像注意力特征提取过程包括:(1)在第五个卷积层和全连接层之间引入一个attention层,改进了残差网络Resnet-50,如图3所示,采用新的卷积层Conv6和最大池化层Max pooling替换全连接层,引入Conv6层的目的是确保最终注意力图的大小与图像特征提取过程中Conv5层输出的图像特征矩阵大小一致;使用改进的Resnet-50网络提取初始注意力矩阵O,并使用交叉熵函数作为损失函数来对该网络进行预训练。
(2)对初始注意力矩阵进一步改进:
O′ir=sigmoid(maxk(Oijk)),
其中,O′ir是图片Ii的第r个区域对应的注意力权重,Oijk是预训练网络输出O中同样位置第k个类别(共有Nc个类别)的数值。
Figure BDA0002492232520000081
其中,
Figure BDA0002492232520000082
是最终获得的注意力矩阵,μi是可计算的阈值,具体计算方式如下:
将该图片不同区域的注意力值进行升序排序,并假设一张图片中大约有p%(0<p<100)的区域属于冗余区,同时剩下的部分(约占1-p%)是重点区域;那么μi的值设为O′i排序后的第
Figure BDA0002492232520000085
个激活值,其中Nr=n×n表示区域数量。
(3)将
Figure BDA0002492232520000083
在通道层面上进行延展,得到新的权重矩阵
Figure BDA0002492232520000084
然后和Conv5层输出的图像特征矩阵做点乘操作,得到经图像注意力特征加权的图像特征。
对训练集中的图像进行文本特征提取和文本注意力特征提取,具体包括:
S1-3:文本特征提取过程中采用两个全连接层获取文本特征;
S1-4:文本注意力特征提取过程包括:(1)在第一全连接层Fc1前引入attention层,采用不含隐藏层的神经网络,即一个两层的非线性分类网络,得到输入文本表示的每一个标注和其对应分类之间的映射关系W,如图4所示,并使用W作为初始注意力矩阵,使用最小平方误差损失指导该分类网络的训练。
(2)对初始注意力矩阵进一步改进:
使用SoftMax函数标准化Wij,并假设文本yi对于不同类别的贡献度服从分布Fi(·),
Figure BDA0002492232520000091
Fi(lj)=W′ij
其中,lj是第j个样本对应的标签信息,
求解每个标注对应的信息熵:
Figure BDA0002492232520000092
W″i=-Ei
求解最终的注意力矩阵
Figure BDA0002492232520000093
Figure BDA0002492232520000094
Figure BDA0002492232520000095
其中,v是可计算的阈值,具体计算方式为:
将注意力矩阵W″i进行升序排列,把v设置为第
Figure BDA0002492232520000097
个位置对应的值,其中Nt表示文本标注集合中不同标签的数量。
(3)将原始文本特征与文本注意图
Figure BDA0002492232520000096
相乘得到经文本注意力特征加权的文本特征;其中,原始文本特征使用BoW表示,也可以是其他形式如Word2Vec。
所述步骤S2中,将图像特征和文本特征输入至哈希学习网络模型中,采用sign函数得到二值化哈希码,以最小化损失函数为目标构建全局目标函数:
Figure BDA0002492232520000101
其中,n为样本集中样本数量,Bx是图片模态对应的二值哈希码,By是文本模态对应的二值哈希码,设置B=Bx=By=sign(γ(F+G)),Wx、Wy是图片模态数据和文本模态数据对应的初始注意力矩阵,F*=fx(xix),θx是图像网络参数,F是图像网络的输出;G*=fy(yiy),θy是文本网络参数,G是文本网络的输出;令
Figure BDA0002492232520000102
γ和η均为超参数;相似度矩阵S为:对于两个不同的样本i,j,若两个样本标签至少有一个类都存在,那么将Sij设置为1,否则置为0。
在本实施例中,全局目标函数第一项为负对数似然损失函数,第二项为量化损失函数,由于样本之间的相似性关系是通过标签信息L得到的,因此为了更加充分的利用样本监督信息,本实施例提出第三项损失,即语义保持损失函数。
所述步骤S2中,以最小化损失函数为目标优化哈希学习模型,需要优化的变量分别为B,F,G,Wx,Wy,本实施例采用迭代优化的方式最小化损失函数,即每次只优化一个变量,其他变量保持不变。具体的优化策略如下:
S2-1:固定变量B,G,Wx,Wy,更新变量F:
对于样本点xi,使用随机梯度下降法优化F*,即:
Figure BDA0002492232520000103
采用链式法则计算
Figure BDA0002492232520000104
Figure BDA0002492232520000105
经反向传播更新图像网络的参数θx
S2-2:固定变量B,F,G,Wy,更新变量Wx
使用随机梯度下降法更新该变量,
Figure BDA0002492232520000111
S2-3:固定变量B,F,Wx,Wy,更新变量G:
和更新变量F的过程类似,对于样本点yj,首先计算变量G的梯度,即:
Figure BDA0002492232520000112
使用链式法则计算
Figure BDA0002492232520000113
并更新参数θy
S2-4:固定变量B,F,G,Wx,更新变量Wy,即:
Figure BDA0002492232520000114
S2-5:固定变量F,G,Wx,Wy,更新变量B,即:
Figure BDA0002492232520000115
其中,V=γ(F+G)。
所述步骤S3中,对哈希学习模型完成优化后,根据优化后的哈希学习模型,对跨模态数据集中所有样本计算得到对应的哈希码;
在进行检索任务时,将得到数据输入至模型中得到对应的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,检索汉明距离最近的N个哈希码,筛选出满足该检索要求的跨模态数据。
实施例2
如图5所示,本实施例提供一种基于注意力感知机制的跨模态哈希检索***,包括:
特征提取模块,用于对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
哈希学习模块,用于将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
检索模块,用于根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
此处需要说明的是,上述模块对应于实施例1中的步骤S1至S3,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
在本实施例中,特征提取模块中接收图片和文本,图像数据和文本数据同时进行特征学习和哈希编码学习,在图像特征提取网络中包括图像注意力特征提取模块,在文本特征提取网络中包括文本注意力特征提取模块,最后将经过注意力加权的特征输入到哈希学习模块中用以指导哈希码的生成,提高哈希码生成的质量,适用于各种多模态数据场景下的跨模态检索任务。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,包括:
对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
2.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,所述跨模态数据集包含多种模态数据,所述训练集包含多个跨模态数据对,所述跨模态数据对采用两个并列的卷积神经网络同时进行特征提取和注意力特征提取。
3.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,所述注意力特征提取包括:
获取初始注意力特征矩阵,以最小化损失函数对卷积神经网络进行训练,输出改进后的注意力特征矩阵;
将注意力特征矩阵与卷积神经网络输出的特征矩阵进行点乘操作,得到经注意力特征加权的跨模态特征。
4.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,根据输出的跨模态哈希码以最小化损失函数为目标构建全局目标函数,所述全局目标函数包括负对数似然损失函数、量化损失函数和语义保持损失函数。
5.如权利要求4所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,所述全局目标函数为:
Figure FDA0002492232510000021
其中,n为样本集中样本数量,Bx、By是跨模态数据对中x模态数据和y模态数据对应的哈希码,θx、θy是x模态数据和y模态数据对应网络的网络参数,Wx、Wy是x模态数据和y模态数据对应的初始注意力矩阵,Sij是相似度矩阵,γ和η均为超参数;F、G是x模态数据和y模态数据对应网络的输出,L是标签信息。
6.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,采用迭代优化方法对哈希学习模型进行优化,优化的变量包括跨模态数据对的哈希码、跨模态数据对对应网络的输出以及初始注意力矩阵。
7.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法,其特征在于,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,比较上述哈希码与待测数据哈希码的汉明距离,检索汉明距离最近的N个哈希码,筛选出满足该检索要求的跨模态数据。
8.一种基于注意力感知机制的跨模态哈希检索***,其特征在于,包括:
特征提取模块,用于对跨模态数据集中的训练集进行特征提取和注意力特征提取,得到经注意力特征加权的跨模态特征;
哈希学习模块,用于将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中,根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型;
检索模块,用于根据由优化后的哈希学习模型得到的待测数据的哈希码,在跨模态数据集中与待测数据模态不同的模态数据的哈希码中,筛选满足检索要求的模态数据。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202010408302.8A 2020-05-14 2020-05-14 一种基于注意力感知机制的跨模态哈希检索方法及*** Active CN111639240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010408302.8A CN111639240B (zh) 2020-05-14 2020-05-14 一种基于注意力感知机制的跨模态哈希检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010408302.8A CN111639240B (zh) 2020-05-14 2020-05-14 一种基于注意力感知机制的跨模态哈希检索方法及***

Publications (2)

Publication Number Publication Date
CN111639240A true CN111639240A (zh) 2020-09-08
CN111639240B CN111639240B (zh) 2021-04-09

Family

ID=72331952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010408302.8A Active CN111639240B (zh) 2020-05-14 2020-05-14 一种基于注意力感知机制的跨模态哈希检索方法及***

Country Status (1)

Country Link
CN (1) CN111639240B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199375A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112287159A (zh) * 2020-12-18 2021-01-29 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及***
CN112364198A (zh) * 2020-11-17 2021-02-12 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN112734625A (zh) * 2021-01-29 2021-04-30 成都视海芯图微电子有限公司 一种基于3d场景设计的硬件加速***及方法
CN112817914A (zh) * 2021-01-21 2021-05-18 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN112862727A (zh) * 2021-03-16 2021-05-28 上海壁仞智能科技有限公司 一种跨模态图像转换方法及装置
CN113032614A (zh) * 2021-04-28 2021-06-25 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN113343014A (zh) * 2021-05-25 2021-09-03 武汉理工大学 基于深度异构相关学习的跨模态图像音频检索方法
CN114090801A (zh) * 2021-10-19 2022-02-25 山东师范大学 深度对抗注意力跨模态哈希检索方法及***
CN116776157A (zh) * 2023-08-17 2023-09-19 鹏城实验室 支持模态增加的模型学习方法及其装置
CN117194740A (zh) * 2023-11-08 2023-12-08 武汉大学 基于引导式迭代反馈的地理信息检索意图更新方法和***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及***
US20200073968A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
US20200073968A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及***
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEER: ""跨模态检索+GAN"", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/42930885》 *
X ZHANG 等: ""Attention-aware Deep Adversarial Hashing for Cross-Modal Retrieval"", 《HTTPS://OPENACCESS.THECVF.COM/CONTENT_ECCV_2018/PAPERS/XI_ZHANG_ATTENTION-AWARE_DEEP_ADVERSARIAL_ECCV_2018_PAPER.PDF》 *
邓一姣 等: ""面向跨模态检索的协同注意力网络模型"", 《计算机科学》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112199375B (zh) * 2020-09-30 2024-03-01 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112199375A (zh) * 2020-09-30 2021-01-08 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112364198A (zh) * 2020-11-17 2021-02-12 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112364198B (zh) * 2020-11-17 2023-06-30 深圳大学 一种跨模态哈希检索方法、终端设备及存储介质
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及***
CN112287159A (zh) * 2020-12-18 2021-01-29 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN112817914A (zh) * 2021-01-21 2021-05-18 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
WO2022155994A1 (zh) * 2021-01-21 2022-07-28 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN112734625A (zh) * 2021-01-29 2021-04-30 成都视海芯图微电子有限公司 一种基于3d场景设计的硬件加速***及方法
CN112734625B (zh) * 2021-01-29 2022-06-07 成都视海芯图微电子有限公司 一种基于3d场景设计的硬件加速***及方法
CN112862727A (zh) * 2021-03-16 2021-05-28 上海壁仞智能科技有限公司 一种跨模态图像转换方法及装置
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113032614A (zh) * 2021-04-28 2021-06-25 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113343014A (zh) * 2021-05-25 2021-09-03 武汉理工大学 基于深度异构相关学习的跨模态图像音频检索方法
CN113239237B (zh) * 2021-07-13 2021-11-30 北京邮电大学 跨媒体大数据搜索方法及装置
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN114090801A (zh) * 2021-10-19 2022-02-25 山东师范大学 深度对抗注意力跨模态哈希检索方法及***
CN116776157A (zh) * 2023-08-17 2023-09-19 鹏城实验室 支持模态增加的模型学习方法及其装置
CN116776157B (zh) * 2023-08-17 2023-12-12 鹏城实验室 支持模态增加的模型学习方法及其装置
CN117194740A (zh) * 2023-11-08 2023-12-08 武汉大学 基于引导式迭代反馈的地理信息检索意图更新方法和***
CN117194740B (zh) * 2023-11-08 2024-01-30 武汉大学 基于引导式迭代反馈的地理信息检索意图更新方法和***

Also Published As

Publication number Publication date
CN111639240B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111639240B (zh) 一种基于注意力感知机制的跨模态哈希检索方法及***
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
US11928602B2 (en) Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges
Sharma et al. Era of deep neural networks: A review
US11288324B2 (en) Chart question answering
CN110188346B (zh) 一种基于信息抽取的网络安全法案件智能研判方法
WO2017052791A1 (en) Semantic multisensory embeddings for video search by text
CN112347248A (zh) 一种方面级文本情感分类方法及***
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN108170848B (zh) 一种面向***智能客服的对话场景分类方法
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN112988970A (zh) 一种服务于智能问答***的文本匹配算法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN111985548A (zh) 一种标签引导的跨模态深度哈希方法
CN106503066B (zh) 基于人工智能的处理搜索结果方法和装置
CN115205640A (zh) 一种面向谣言检测的多层次图文融合方法及***
CN111930972B (zh) 利用标签层次信息的多媒体数据跨模态检索方法及***
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant