CN110110122A - 基于多层语义深度哈希算法的图像-文本跨模态检索 - Google Patents

基于多层语义深度哈希算法的图像-文本跨模态检索 Download PDF

Info

Publication number
CN110110122A
CN110110122A CN201810649234.7A CN201810649234A CN110110122A CN 110110122 A CN110110122 A CN 110110122A CN 201810649234 A CN201810649234 A CN 201810649234A CN 110110122 A CN110110122 A CN 110110122A
Authority
CN
China
Prior art keywords
multilayer
data
text
module
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810649234.7A
Other languages
English (en)
Inventor
冀振燕
姚伟娜
杨文韬
皮怀雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201810649234.7A priority Critical patent/CN110110122A/zh
Publication of CN110110122A publication Critical patent/CN110110122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及结合深度学习与哈希方法的图像‑文本跨模态检索模型。为了解决传统基于深度学习的跨模态哈希方法在处理多标签数据问题时直接将其转换为单标签问题的局限性,提出了一种基于多层语义的深度跨模态哈希算法。通过多标签数据之间的共现关系定义数据之间的相似度,并以此作为网络训练的监督信息。设计综合考虑多层语义相似度与二值相似度的损失函数,对网络进行训练,使得特征提取和哈希码学习过程统一在一个框架内,实现端到端学习。该算法充分利用数据之间的语义相关性信息,提高了检索准确率。

Description

基于多层语义深度哈希算法的图像-文本跨模态检索
技术领域
本发明涉及到跨模态检索领域,尤其涉及到一种基于多层语义的结合深度学习与哈希方法的图像-文本跨模态检索算法。
背景技术
随着移动互联网的发展和智能手机、数码相机等设备的普及,互联网上的多媒体数据呈***式增长。在信息检索领域,多媒体大数据的不断增长带来了跨模态检索应用需求。而目前主流的搜索引擎,如百度、谷歌、必应等,仅提供一种模态的检索结果。此外,随着深度学习在计算机视觉、自然语言处理等领域取得一系列突破性进展,将多媒体大数据与人工智能相结合,是两个领域未来共同的发展趋势。因此,结合新技术和新需求,探索新的跨模态检索模式成为当前信息检索领域亟待解决的挑战之一。
传统的跨模态检索通常采用依赖领域知识的手工设计特征,“语义鸿沟”问题仍是该领域的难点。将深度学习应用于跨模态检索领域,不仅为解决不同模态异质数据之间的“媒体鸿沟”提供了大量特征学习与表示方面先进的研究成果。然而,随着多媒体数据的不断增长,采用深度学习的特征表示由于维数过大而面临存储空间与检索效率的挑战,导致无法适应大规模多媒体数据检索任务。同时,跨模态检索问题还面临真实数据存在多个标签的问题。现有的解决方法大部分均采用了将问题转化为二值相关的单标签学习问题,导致学习到的模型不能充分保留数据在原语义空间的关联关系,影响最终检索结果
发明内容
本发明的目的在于克服现有技术的不足,将结合基于深度学习的特征表示,并同时考虑图像、文本两种模态数据的二值相似性和多层语义相似性,应用哈希方法通过网络训练得到数据到哈希码的映射,提供一种检索准确率更高的图像-文本跨模态检索方法。
为实现上述目的,本发明所提供的技术方案为:
分为三个模块,分别为深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;
其中,深度特征提取模块采用深度神经网络提取图像和文本数据特征。该模块采用两个子网络分别提取图像和文本模态数据特征的结构,即包含两个深度神经网络,一个用于提取图像数据的特征,一个用于提取文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取。CNN-F的结构由5层卷积层和3层全连接层构成。在文本特征提取阶段,首先以词袋(Bag-of-Words,BOW)向量对文本数据建模。基于上述词袋模型,文本特征提取网络采用由三层全连接层构成的多层感知机(Multi-Layer Perception,MLP)网络提取文本特征。
对于相似度矩阵生成模块,包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵。对于二值相似度矩阵当图像i与文本j相似时,矩阵对应的取值为1;当图像i与文本j不相似时,矩阵对应的取值为0。对于多层语义相似度矩阵根据标签共现关系设计其计算方法,使得两个样本的类别标签集拥有更多相似标签时,样本的相似度越大,当两个标签集完全相同时,达到最大值1。当两个样本标签集中的标签完全不同时,取最小值0。
对于哈希码生成模块,为了使学习到的哈希码保留二值相似度矩阵及多层语义相似度矩阵中的语义信息,设计目标函数:
其中,
通过优化该目标函数,学习网络参数,得到数据与哈希码的映射关系。
与现有技术相比,本方案原理及优点如下:
本方案结合深度学习与哈希方法,克服传统手工设计特征在特征表示能力上的不足,及深度特征维数过大,不利于数据存储和计算的缺点,并结合二值相似度和多层语义相似度,充分考虑跨模态数据之间复杂的相似度关系,使学习到的哈希码保留更多语义信息,提高检索准确率。
附图说明
图1为本发明基于多层语义深度哈希算法的图像-文本跨模态检索的整体框架图;
具体实施方式
下面结合具体实例对本发明作进一步说明:
本发明中皆以图像和文本两种模态为例进行讨论。
本发明提供了一种基于多层语义深度哈希算法的图像-文本跨模态检索(DeepMulti-Level Semantic Hashing for Cross-modal Retrieval,DMSH)方法,其中包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块,如图1所示;
表1图像特征提取网络结构
深度特征提取模块采用深度神经网络提取图像和文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取,网络结构配置如表1所示。在文本特征提取阶段,首先以词袋向量对文本数据建模。基于词袋模型,文本特征提取网络采用由三层全连接层构成的多层感知机网络提取文本特征,网络配置如表2所示.
其中,conv1层采用4步长卷积,conv2-conv5层均采用1步长卷积。pad即补边(Padding),表示步长移动方式。通常指给图像边缘补边,使得卷积后输出的图像尺寸与原尺寸一致。LRN表示局部响应归一化(Local Response Normalization)。其模仿生物神经元的侧抑制机制,对局部神经元的活动创建竞争机制,使响应较大的值更大,并抑制反馈较小的神经元,增强模型泛化能力。采用MAX操作的池化技术,取原图像某一尺寸内的最大值,从而有效减少模型参数,防止过拟合。并通过Dropout正则化技术,通过在训练期间随机的丢弃一定数量的神经元,防止网络过拟合。
表2文本特征提取网络
其中,网络的第一个隐藏层是与输入词袋向量长度相同的全连接层,第二层隐藏层是4096维全连接层,第三层是长度为哈希码长的全连接层。网络的输出即文本特征向量。
相似度矩阵生成模块包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵对于二值相似度矩阵当图像i与文本j相似时,矩阵对应的取值为1;当图像i与文本j不相似时,矩阵对应的取值为0。其中,不同模态数据之间的相似性通过类别标签衡量。即若图像i和文本j有共同的一组类别标签,那么认为它们是相似的;否则认为它们是不相似的。其定义如下:
对于多层语义相似度矩阵采用一种基于类别标签共现关系的相似度矩阵计算方法;下面介绍具体生成方法。
对于两个类别标签ti,tj,定义标签相似度:
其中,d(ti,tj)表示两个标签的语义距离,定义如下:
其中,分别表示训练集中ti,tj出现的次数;表示ti,tj共同出现的次数;Nc表示训练集中所有标签的个数。
由定义(2)可知,s(ti,tj)∈[0,1],表示当两个标签共同出现的次数越多时,它们的相似度越大。根据标签相似性s,可定义样本间的相似性
对于两个样本Dm,Dn,定义样本相似度
其中,tm,tm分别表示样本Dm,Dn的类别标签集;|tm|,|tn|分别表示tm,tn的个数;即哈希标签。由定义可知,当两个样本的类别标签集拥有更多相似标签时,样本的相似度越大,当两个标签集tm,tn完全相同时,达到最大值1。当tm中的标签与tn中的标签全部不相似时,取最小值0。因此,基于多标签的语义相似度矩阵可以作为哈希码学习过程的监督信息。与二值相似度矩阵相比,将跨模态相似度由离散的{0,1}扩展为连续的[0,1]区间取值,保留了更多隐含在数据类别标签中的丰富的语义信息。
哈希码学习模块,以表示学习到的样本Di的图像特征,即图像特征提取网络的输出;以表示学习到的样本Dj的文字特征,即文字特征提取网络的输出。分别表示两个深度网络的参数。
为了使学习到的哈希码保留二值相似度矩阵的语义信息,采用sigmoid交叉熵损失函数:
其中,为保证训练过程的稳定性及避免溢出,在实现阶段采用(3-5)的等价形式:
基于上述二值语义信息损失函数进一步引入多层语义损失函数使得学习到的模型保留包含在多层语义相似度矩阵中更加丰富的语义信息。这里同样采用sigmoid交叉熵损失函数的等价形式:
因此,可以得到目标函数的完整形式:
其中,F(g)、F(x)分别表示学习到的图像和文本的特征向量,它们包含了相似度矩阵中的语义信息;C(g)、C(x)分别表示图像和文本的哈希码,sign(·)表示符号函数,定义如式(3-9)。F(g)、F(x)中的语义信息通过符号函数传递给C(g)、C(x)表示斐波那契范数,E表示元素取值全为1的向量;μ,ρ,τ为超参数。
C(g)=sign(F(g)) (9)
C(x)=sign(F(x)) (10)
目标函数的前两项是跨模态相似度的负对数似然函数,通过优化该项可保证当越大时,F(g)*i与F(x) *j的相似度越大;越小,F(g) *i与F(x) *j的相似度越小。因此,优化第1、2项保证了网络学习到的图像和文本的特征保留了原来语义空间的跨模态相似性。
目标函数的第3项为正则化项,通过优化该项,得到图像和文本的哈希码C(g)、C(x),并且保留了网络提取的特征F(g) *i与F(x) *j的相似性。由于F(g) *i与F(x) *j保持了语义空间的跨模态相似性,因此得到的哈希码也保留了语义空间的跨模态相似性。
通过优化目标函数的第4项,使得最终得到的哈希码的每一位在整个训练集上取值为“1”和“-1”的个数保持平衡,即哈希码的同一位置上取“1”和“-1”的个数各占一半。这一约束可以保证哈希码的每一位包含的信息最大化。
实验表明,在网络的训练过程中,令来自同一数据点的图像和文本取完全相同的哈希码,能更好的提升网络的性能。因此,本文在原目标函数的基础上增加加约束C(g)=C(x)=C,最终的目标函数为:
通过优化该目标函数,使得网络同时学习特征提取的参数和哈希码表示,即将特征学习和哈希码学习过程统一在一个深度学习框架中,实现端到端学习。
在测试及应用阶段,输入任意的单一模态的图像或文本数据,都可以通过训练好的网络来生成其对应的二值码向量,即哈希码。
具体的,将数据点Di的图像模态gi输入网络,通过网络的前向传播可生成其哈希码表示,计算过程如下:
类似地,对数据点Dj的文本模态xj,通过网络的前向传播可以生成其对应的哈希码:
因此,本文提出的DMSH检索模型可以实现给定图像或文本任意一种模态的查询数据,返回不同模态数据库中与之最相似的前k个检索结果。检索过程中,首先计算查询数据(Query)的哈希码与待检索数据库中存储的哈希码之间的距离,然后返回距离最近的前k个哈希码,其所对应的k个数据即最终检索结果。

Claims (5)

1.一种基于多层语义深度哈希算法的图像-文本跨模态检索方法。其特征在于:整体框架包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;分别采用两个深度神经网络提取图像和文字特征,将特征学习和哈希码学习过程统一在一个框架内,并通过引入基于标签共现的多层次语义监督信息指导整个训练过程,使得到的二值码不仅保留了原样本空间基本的相似/不相似关系,并且能够区分样本间的相似程度,更大程度的保留样本间的高层语义,提高检索准确率;在结构上,通过对网络施加“在语义空间相似的图像和文字在汉明空间具有相似的哈希码”这一约束进行训练,直接将哈希码作为网络的输出,实现端到端学习,从而保证学习到的特征适应特定的检索任务。
2.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,其特征在于:整体框架由深度特征提取模块、相似度矩阵生成模块、哈希码学习模块三个部分构成,通过将原始空间的数据映射为汉明空间中由统一形式的“+1/-1”构成的二值码向量,降低存储空间,提高计算效率。
3.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,其特征在于:深度特征提取模块对图像和文本数据分别采用不同的深度神经网络,提取两种模态数据的语义特征,对图像数据,采用改进的CNN-F网络,对文本数据,采用多层感知机网络。
4.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,其特征在于:相似度矩阵生成模块根据不同模态数据之间是否有共同标签生成二值相似度矩阵,根据不同模态数据标签的相似性大小生成多层语义相似度矩阵,保留更多标签提供的寓意信息。
5.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,其特征在于:哈希码学习模块通过设计同时保留数据在原语义空间的二值相似度信息和多层语义相似度信息的目标函数,对网络进行训练,学习特征空间到汉明空间的映射。
CN201810649234.7A 2018-06-22 2018-06-22 基于多层语义深度哈希算法的图像-文本跨模态检索 Pending CN110110122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810649234.7A CN110110122A (zh) 2018-06-22 2018-06-22 基于多层语义深度哈希算法的图像-文本跨模态检索

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810649234.7A CN110110122A (zh) 2018-06-22 2018-06-22 基于多层语义深度哈希算法的图像-文本跨模态检索

Publications (1)

Publication Number Publication Date
CN110110122A true CN110110122A (zh) 2019-08-09

Family

ID=67483310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810649234.7A Pending CN110110122A (zh) 2018-06-22 2018-06-22 基于多层语义深度哈希算法的图像-文本跨模态检索

Country Status (1)

Country Link
CN (1) CN110110122A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN110990597A (zh) * 2019-12-19 2020-04-10 中国电子科技集团公司信息科学研究院 基于文本语义映射的跨模态数据检索***及其检索方法
CN111026887A (zh) * 2019-12-09 2020-04-17 武汉科技大学 一种跨媒体检索的方法及***
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN111177421A (zh) * 2019-12-30 2020-05-19 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN111221993A (zh) * 2020-01-09 2020-06-02 山东建筑大学 基于深度二值细节感知哈希的可视媒体检索方法
CN111353076A (zh) * 2020-02-21 2020-06-30 华为技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111651660A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
CN111813967A (zh) * 2020-07-14 2020-10-23 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及***
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、***
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及***
CN112100413A (zh) * 2020-09-07 2020-12-18 济南浪潮高新科技投资发展有限公司 一种跨模态的哈希检索方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN113270199A (zh) * 2021-04-30 2021-08-17 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113342922A (zh) * 2021-06-17 2021-09-03 北京邮电大学 一种基于标签细粒度自监督的跨模态检索方法
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法
CN113658683A (zh) * 2021-08-05 2021-11-16 重庆金山医疗技术研究院有限公司 一种疾病诊断***及数据推荐方法
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113806580A (zh) * 2021-09-28 2021-12-17 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN114239730A (zh) * 2021-12-20 2022-03-25 华侨大学 一种基于近邻排序关系的跨模态检索方法
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006128A2 (en) * 2002-07-09 2004-01-15 Koninklijke Philips Electronics N.V. Method and apparatus for classification of a data object in a database
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006128A2 (en) * 2002-07-09 2004-01-15 Koninklijke Philips Electronics N.V. Method and apparatus for classification of a data object in a database
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUE CAO 等: "Deep Visual-Semantic Hashing for Cross-Modal Retrieval", 《PUBLICATION: KDD "16: PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
ZHENYAN JI 等: "A Survey of Personalised Image Retrieval and Recommendation", 《THEORETICAL COMPUTER SCIENCE (2017)》 *
姚伟娜: "基于深度哈希算法的图像—文本跨模态检索研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张玉宏 等: "深度学习的方法论辨析", 《重庆理工大学学报(社会科学)》 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111026887A (zh) * 2019-12-09 2020-04-17 武汉科技大学 一种跨媒体检索的方法及***
CN111026887B (zh) * 2019-12-09 2023-05-23 武汉科技大学 一种跨媒体检索的方法及***
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN110990597A (zh) * 2019-12-19 2020-04-10 中国电子科技集团公司信息科学研究院 基于文本语义映射的跨模态数据检索***及其检索方法
CN110990597B (zh) * 2019-12-19 2022-11-25 中国电子科技集团公司信息科学研究院 基于文本语义映射的跨模态数据检索***及其检索方法
CN111177421A (zh) * 2019-12-30 2020-05-19 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
WO2021136318A1 (zh) * 2019-12-30 2021-07-08 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN111221993B (zh) * 2020-01-09 2023-07-07 山东建筑大学 基于深度二值细节感知哈希的可视媒体检索方法
CN111221993A (zh) * 2020-01-09 2020-06-02 山东建筑大学 基于深度二值细节感知哈希的可视媒体检索方法
CN111353076B (zh) * 2020-02-21 2023-10-10 华为云计算技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111353076A (zh) * 2020-02-21 2020-06-30 华为技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111368176B (zh) * 2020-03-02 2023-08-18 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111651660A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
CN111651660B (zh) * 2020-05-28 2023-05-02 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
CN111813967A (zh) * 2020-07-14 2020-10-23 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111813967B (zh) * 2020-07-14 2024-01-30 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及***
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、***
CN111914156B (zh) * 2020-08-14 2023-01-20 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、***
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及***
CN112100413A (zh) * 2020-09-07 2020-12-18 济南浪潮高新科技投资发展有限公司 一种跨模态的哈希检索方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
CN112199520B (zh) * 2020-09-19 2022-07-22 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113095415B (zh) * 2021-04-15 2022-06-14 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113270199A (zh) * 2021-04-30 2021-08-17 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113270199B (zh) * 2021-04-30 2024-04-26 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113342922A (zh) * 2021-06-17 2021-09-03 北京邮电大学 一种基于标签细粒度自监督的跨模态检索方法
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN113536067B (zh) * 2021-07-20 2024-01-05 南京邮电大学 一种基于语义融合的跨模态信息检索方法
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法
CN113658683A (zh) * 2021-08-05 2021-11-16 重庆金山医疗技术研究院有限公司 一种疾病诊断***及数据推荐方法
CN113806580A (zh) * 2021-09-28 2021-12-17 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN113806580B (zh) * 2021-09-28 2023-10-20 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN113792207B (zh) * 2021-09-29 2023-11-17 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN114239730A (zh) * 2021-12-20 2022-03-25 华侨大学 一种基于近邻排序关系的跨模态检索方法
CN114780777B (zh) * 2022-04-06 2022-12-20 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116955675B (zh) * 2023-09-21 2023-12-12 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络

Similar Documents

Publication Publication Date Title
CN110110122A (zh) 基于多层语义深度哈希算法的图像-文本跨模态检索
Yan et al. Cross-modality bridging and knowledge transferring for image understanding
Tautkute et al. Deepstyle: Multimodal search engine for fashion and interior design
Piras et al. Information fusion in content based image retrieval: A comprehensive overview
Hoi et al. A semi-supervised active learning framework for image retrieval
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
Castellano et al. Leveraging knowledge graphs and deep learning for automatic art analysis
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
Lin et al. Mask cross-modal hashing networks
De Beul et al. An ontology for video human movement representation based on benesh notation
US11860932B2 (en) Scene graph embeddings using relative similarity supervision
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
Maheshwari et al. Scene graph embeddings using relative similarity supervision
Singhania et al. Text-based image retrieval using deep learning
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
Li et al. Multimodal fusion with co-attention mechanism
Zhu et al. Cross-modal retrieval: a systematic review of methods and future directions
Sharma et al. Evolution of visual data captioning Methods, Datasets, and evaluation Metrics: A comprehensive survey
Xue et al. Learning semantic dependencies with channel correlation for multi-label classification
CN109255098B (zh) 一种基于重构约束的矩阵分解哈希方法
Zhou et al. Disambiguating named entities with deep supervised learning via crowd labels
Goyal et al. A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Feature
Ke et al. Real web community based automatic image annotation
An et al. Pedestrian Reidentification Algorithm Based on Deconvolution Network Feature Extraction‐Multilayer Attention Mechanism Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809

RJ01 Rejection of invention patent application after publication