CN116204706A - 一种文本内容结合图像分析的多模态内容检索方法与*** - Google Patents

一种文本内容结合图像分析的多模态内容检索方法与*** Download PDF

Info

Publication number
CN116204706A
CN116204706A CN202211723519.3A CN202211723519A CN116204706A CN 116204706 A CN116204706 A CN 116204706A CN 202211723519 A CN202211723519 A CN 202211723519A CN 116204706 A CN116204706 A CN 116204706A
Authority
CN
China
Prior art keywords
text
features
modal
image
hash code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211723519.3A
Other languages
English (en)
Inventor
周凡
张富为
林谋广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202211723519.3A priority Critical patent/CN116204706A/zh
Publication of CN116204706A publication Critical patent/CN116204706A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本内容结合图像分析的多模态内容检索方法。包括:对数据集进行预处理,得到文本图像信息对;提取图像与文本特征,对图像特征与文本特征进行多模态注意力计算,得到多模态特征;编码图像、文本和多模态特征,形成对应的哈希码;构建目标损失函数,训练得到多模态哈希码生成模型;利用多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;根据用户输入的文本信息,生成多模态哈希码,与多模态哈希码数据库进行匹配,得到检索结果。本发明还公开了一种文本内容结合图像分析的多模态内容检索***。本发明使用多模态哈希码,从根本上捕获模态之间的共性,弥补模态之间的异质鸿沟,显著提高有效特征的提取效率。

Description

一种文本内容结合图像分析的多模态内容检索方法与***
技术领域
本发明涉及检索技术,具体涉及一种文本内容结合图像分析的多模态内容检索方法与***。
背景技术
在过去的十年中,不同类型的多媒体数据通过文本的描述,图像和视频的呈现等在互联网上***式传播。网页在向受众传递信息的时候,会采用语言文字表达,图像辅助说明同时呈现视频的方式来对同一事件或主题进行叙述。这种表达方式中的不同类型的数据称为多模态数据。因此,在互联网时代如何快速准确地实现多模态检索引起了研究人员广泛关注。
如今,移动通讯设备和新兴社交网站(例如Facebook、Flickr、YouTube和Twitter)正在改变人们与世界互动和搜索感兴趣信息的方式。如果用户可以使用任何媒体内容作为查询相关信息的输入,将非常方便。假设我们正在游玩长城,我们可能希望通过所拍的照片来检索相关的文字材料,进而了解所游玩地方的历史以及趣闻。因此,多模态检索作为一种常见的搜索方式变得越来越重要。多模态检索旨在以一种类型的数据作为查询来检索另一种类型的相关数据。此外,当用户提交任何媒体类型的数据来搜索信息时,他们可以获得各种媒体类型的搜索结果,由于数据的不同表现形式可以相互补充信息,因此这种方式得到的搜索结果更加全面。多模态研究领域中,最初的研究方向是多模态检索。多模态检索技术涉及到自然语言处理、图像处理、语音识别、计算机视觉和机器学习等多个领域,与计算机科学、统计学、数学等多个不同的学科密切相关。一方面,多模态检索方法的研究将激励很多机器学习理论(例如多视角学习、哈希学习、子空间学习、度量学习、深度学习等)的进一步发展。另一方面,多模态检索方法的研究是新检索技术的产生和发展的必经阶段,而新检索技术可以促进信息技术造福社会经济发展,因此多模态检索方法的研究具有重要意义。随着多模态数据之间相互补充说明的现象越来越常见,各种搜索引擎和社交媒体上的多模态数据都呈现***式增长。研究人员重点研究如何在大规模的多模态数据中快速准确地搜索到不同模态的表示相同事件主题的数据。由于来自不同模态的数据通常具有不可比较的特征表示和分布,因此有必要将它们映射到一个公共的特征空间。为了满足实际应用中低存储成本和高查询速度的要求,科研工作者提出了哈希多模态检索的方法。它将高维多模态数据映射到公共的汉明空间,得到哈希码后仅通过异或运算就可以计算多模态数据之间的相似度。现有的哈希多模态检索方法大多使用手工制作的特征进行哈希学习,这些方法学习哈希码的速度较快也能达到不错的检索效果。但这类哈希多模态检索算法的一个共同缺点是手工特征制作过程和哈希学习过程是完全独立的,进而手工制作的特征可能与哈希学习的过程无法完全兼容,因此使用手工制作特征的哈希多模态检索方法检索效果不佳。有科研人员通过实验表明,在目前使用的几个常用多模态数据集上,如果继续使用手工制作特征进行哈希学习很难使得多模态检索效果获得提升。为了解决手工制作的特征与哈希学习的过程无法完全兼容的问题,那么就需要研究出与哈希学习相匹配的特征学习。本文拟在使用深度学习进行与哈希学习相匹配的特征学习,从减小编码误差、挖掘多模态数据的语义信息和缩小多模态数据之间的差异性等角度探究哈希多模态检索技术。
哈希多模态检索的基本思想是将数据从原始特征空间上映射到二进制的编码空间上进行相似性检索。哈希多模态检索方法将多模态数据映射为二进制编码,二进制编码具有占用空间小和计算速度快的优点。一般哈希多模态检索方法分为两步,首先通过线性变换或非线性变换将不同模态的数据或手工制作的特征映射到公共特征空间,其次对公共特征空间的特征进行编码,大多数哈希多模态检索方法使用二进制分区函数进行编码。多模态检索的关键难题在于如何关联多模态数据之间的语义相关性,通常通过同一个样本的不同模态学习统一的哈希码或缩小语义相关的多模态数据之间的汉明距离解决。哈希多模态检索方法根据是否使用标签信息可以分为有监督方法和无监督方法,根据投影方式可以分为线性方法和非线性方法。
目前的现有技术之一,是论文“Large-scale supervised multimodal hashingwith semantic correlation maximization”中的多模态相似度敏感哈希(Cross-ModalSimilarity Sensitive Hashing,CMSSH),该方法首先将原始数据映射为哈希码,利用该哈希码和定义的多模态数据融合方式得到相似度矩阵,利用相似度矩阵得到下一个哈希函数的权重,该方法将每个哈希函数的学习当成二分类过程,即弱分类器,最终用标准提升算法将弱分类器集成为一个强分类器。该方法的缺点在于CMSSH用基于点对的方法保持多模态数据之间的一致性,但是没有考虑到模态内数据间相似性。
目前的现有技术之二,是论文“Kenel-based supervised hashing for cross-view similarity search”中提出的监督矩阵分解哈希(Supervised MatrixFactorization Hashing,SMFH),该方法借鉴了矩阵分解在哈希多模态检索,并有效地利用了标签信息和局部几何结构,既考虑了不同模态的标签的一致性,又考虑了各模态内的局部几何一致性,这两个元素在目标函数中被公式化为图拉普拉斯算子项,大大改善了通过联合矩阵分解获得的潜在语义特征的判别能力。论文“”中提出的离散多模态哈希(Discrete Cross-modal Hashing,DCH),DCH保留离散约束,将标签作为监督信息,构造了一个线性分类器,直接学习有判别性的哈希码。该方法缺点是与非线性结构相比,线性结构学习的语义信息受限,线性方法不能分为基于点对的方法和基于标签的方法。
目前的现有技术之三,是论文“Deep cross-modal hashing”中提出的多模态隐二进制嵌入(Multimodal Latent Binary Embedding,MLBE)模型,MLBE使用一个生成模型来对多模态数据模态内部相似度和模态间相似度进行编码。基于最大后验估计,有效地获得了既保持模态内的相似性也保持了模态间的相似性的二进制潜在因子,然后将其作为学习到的哈希码。该方法的缺点是在学习期间,尤其是当代码长度较大时,参数比较多,计算复杂度高,优化很容易陷入局部最小值。
发明内容
本发明的目的是克服现有方法的不足,提出了一种文本内容结合图像分析的多模态内容检索方法与***。本发明解决的主要问题,一是CMSSH采用点对的方法保持多模态数据之间的一致性,却忽视了模态内数据的相似性;二是当前多模态哈希方法存在哈希码特征能力表达不足,有效特征提取效率低;三是当代码长度较大,参数较多,计算复杂度高时,MLBE模型优化很容易陷入局部最小值。
为了解决上述问题,本发明提出了一种文本内容结合图像分析的多模态内容检索方法,所述方法包括:
对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征;
输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征;
分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码;
输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型;
利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;
根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
优选地,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对,具体为:
收集图像及其对应文本描述的信息,构成数据集Imagenet,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对。
优选地,所述输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征,具体为:
对于图像特征,采用卷积神经网络结合一个512个节点的全连接层,同时连接一个K个节点且激活函数是softmax来构建一个图像特征提取网络,输出作为学习到的图像特征,结合一个具有标签类别数的激活函数sigmoid的全连接层,图像网络的最后一层输出预测的标签,用来保持实例的标签特征;对于文本特征,将每个文本用词袋向量表示出来,为了解决词袋向量容易导致特征稀疏的问题,采用多尺度融合模型MS来提取文本数据特征,MS包括五级池化层(1x1,2x2,3x3,5x5,10x10),在MS后连接一个4096个节点的全连接层,然后连接一个512个节点的全连接层,再连接一个K个节点且激活函数是softmax的全连接层,最后是一个具有标签类别数量的节点激活函数为sigmoid的全连接层,文本网络的倒数第二层的输出作为学习到的文本特征,最后一层输出预测的标签。
优选地,所述输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征,具体为:
采用基于自注意力机制的多模态交叉注意机制来捕获文本与图像之间的相关性,将文本作为查询子Q,图像作为键值K和V,然后进行多模态注意力计算,将不同头的计算进行融合并进行归一化处理,得到最终的多模态特征。
优选地,所述分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码,具体为:
采用sign函数分别获取文本、图像以及多模态特征的哈希码,公式如下:
Figure BDA0004028960710000071
多模态特征包含了文本特征和图像特征,采用多模态特征作为中间桥梁来链接不同模态之间的哈希码学习过程,图像哈希码学习过程,采用sign函数首先编码图像特征,形成图像哈希码;使用sign函数编码多模态特征,形成多模态哈希码;文本哈希码学习过程,采用sign函数编码文本特征,形成文本哈希码,在建模以上不同模态哈希码之后,构建目标损失函数。
优选地,所述输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型,具体为:
采用负对数似然损失来建模图像特征与多模态特征之间的相似关系,采用余弦相似度函数来建模图像与多模态特征之间的相似性
Figure BDA0004028960710000072
如下所示:
Figure BDA0004028960710000073
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000074
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA0004028960710000075
表示相似,-1表示不相似,/>
Figure BDA0004028960710000076
Figure BDA0004028960710000077
表示两个模态不同样本在实值空间的相似关系,F=f(xi;θx)∈RC与L=g(yi;θy)∈RC分别表示图像特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
随后,利用负对数似然损失建模文本与多模态特征之间的相似关系,采用余弦相似度函数来建模文本与多模态特征之间的相似性
Figure BDA0004028960710000078
如下所示:
Figure BDA0004028960710000081
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000082
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA0004028960710000083
表示相似,-1表示不相似,/>
Figure BDA0004028960710000084
Figure BDA0004028960710000085
表示两个模态不同样本在实值空间的相似关系,L=f(xi;θx)∈RC与G=g(yi;θy)∈RC分别表示文本特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,也是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
同时,为了弥补不同模态在量化过程中丢失的信息,构建量化损失,如下所示:
Figure BDA0004028960710000086
Figure BDA0004028960710000087
其中,B是一个n*c的矩阵,用于在训练时不断的存储与更新每个样本的二值哈希表示,B的产生,实际上是一个后处理的过程,通过sign(F+L)以及sign(F+G)得到sign(·)是一个将大于0的数转换为1,小于0的数转换为-1的函数;
随后,为了平衡不同模态之间的关系,引入平衡损失,如下所示:
Figure BDA0004028960710000088
/>
最后,总目标损失为:
Lall=L1+L2+L3+L4+L5
通过学习以上损失函数将不同模态的相似数据映射到相近的汉明空间中,使不同模态间的不相似数据的哈希编码在汉明空间拥有更远的汉明距离,训练得到多模态哈希码生成模型;
所述多模态哈希码生成模型,在用户进行检索时,只需进行数据上传,数据经过所述训练的模型运算得到哈希编码,将哈希编码与数据库中的哈希码进行比对进而实现检索功能,提升了检索速度及准确度。
相应地,本发明还提供了一种文本内容结合图像分析的多模态内容检索***,包括:
数据预处理单元,用于对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
特征提取单元,用于输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征;
多模态注意单元,用于输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征;
哈希码生成单元,用于分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码;
模型训练单元,用于输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型;
数据库构建单元,利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;
匹配单元,根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
实施本发明,具有如下有益效果:
本发明利用卷积神经网络提取图像特征,利用词袋模型提取文本特征,采用现有先进的多模态注意方法来融合两种模态,而不采用复杂的网络来融合多模态特征,降低网络的计算复杂度。同时,本方案增加了多模态哈希码,由于不同模态之间的相关关系,多模态注意的目的是为了捕获模态之间的共性,共性特征分布在不同的单模态中,构建了模态之间相似度计算的桥梁,比传统的直接采用不同模态的哈希码进行相似度计算更容易弥补模态之间的异质鸿沟问题,而且从根本上挖掘模态之间的共性。本方案开创性的构建多模态哈希码,从而提高当前哈希码的特征表达能力,并通过哈希码的反向传播链接多模态特征的提取过程,显著地提高有效特征的提取效率。
附图说明
图1是本发明实施例的一种文本内容结合图像分析的多模态内容检索方法的总体流程图;
图2是本发明实施例的多模态哈希生成模型的训练流程图;
图3是本发明实施例的多模态注意计算流程图;
图4是本发明实施例的多模态哈希码数据库产生流程图;
图5是本发明实施例的检索匹配流程图;
图6是本发明实施例的一种文本内容结合图像分析的多模态内容检索***的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种文本内容结合图像分析的多模态内容检索方法的总体流程图,如图1所示,该方法包括:
S1,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
S2,输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征;
S3,输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征;
S4,分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码;
S5,输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型;
S6,如图4所示,利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;
S7,如图5所示,根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
步骤S1,具体如下:
S1-1,收集图像及其对应文本描述的信息,构成数据集Imagenet,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对。
步骤S2,如图2所示,具体如下:
S2-1,对于图像特征,采用卷积神经网络结合一个512个节点的全连接层,同时连接一个K个节点且激活函数是softmax来构建一个图像特征提取网络,输出作为学习到的图像特征,结合一个具有标签类别数的激活函数sigmoid的全连接层,图像网络的最后一层输出预测的标签,用来保持实例的标签特征;对于文本特征,将每个文本用词袋向量表示出来,为了解决词袋向量容易导致特征稀疏的问题,采用多尺度融合模型MS来提取文本数据特征,MS包括五级池化层(1x1,2x2,3x3,5x5,10x10),在MS后连接一个4096个节点的全连接层,然后连接一个512个节点的全连接层,再连接一个K个节点且激活函数是softmax的全连接层,最后是一个具有标签类别数量的节点激活函数为sigmoid的全连接层,文本网络的倒数第二层的输出作为学习到的文本特征,最后一层输出预测的标签。
步骤S3,如图3所示,具体如下:
S3-1,采用基于自注意力机制的多模态交叉注意机制来捕获文本与图像之间的相关性,将文本作为查询子Q,图像作为键值K和V,然后进行多模态注意力计算,将不同头的计算进行融合并进行归一化处理,得到最终的多模态特征。
步骤S4,具体如下:
S4-1,采用sign函数分别获取文本、图像以及多模态特征的哈希码,公式如下:
Figure BDA0004028960710000131
S4-2,多模态特征包含了文本特征和图像特征,采用多模态特征作为中间桥梁来链接不同模态之间的哈希码学习过程,图像哈希码学习过程,采用sign函数首先编码图像特征,形成图像哈希码;使用sign函数编码多模态特征,形成多模态哈希码;文本哈希码学习过程,采用sign函数编码文本特征,形成文本哈希码,在建模以上不同模态哈希码之后,构建目标损失函数。
步骤S5,具体如下:
采用负对数似然损失来建模图像特征与多模态特征之间的相似关系,采用余弦相似度函数来建模图像与多模态特征之间的相似性
Figure BDA0004028960710000132
如下所示:
Figure BDA0004028960710000133
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000134
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA0004028960710000135
表示相似,-1表示不相似,/>
Figure BDA0004028960710000136
Figure BDA0004028960710000137
表示两个模态不同样本在实值空间的相似关系,F=f(xi;θx)∈RC与L=g(yi;θy)∈RC分别表示图像特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
随后,利用负对数似然损失建模文本与多模态特征之间的相似关系,采用余弦相似度函数来建模文本与多模态特征之间的相似性
Figure BDA0004028960710000138
如下所示:
Figure BDA0004028960710000141
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000142
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA0004028960710000143
表示相似,-1表示不相似,/>
Figure BDA0004028960710000144
Figure BDA0004028960710000145
表示两个模态不同样本在实值空间的相似关系,L=f(xi;θx)∈RC与G=g(yi;θy)∈RC分别表示文本特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,也是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
同时,为了弥补不同模态在量化过程中丢失的信息,构建量化损失,如下所示:
Figure BDA0004028960710000146
Figure BDA0004028960710000147
其中,B是一个n*c的矩阵,用于在训练时不断的存储与更新每个样本的二值哈希表示,B的产生,实际上是一个后处理的过程,通过sign(F+L)以及sign(F+G)得到sign(·)是一个将大于0的数转换为1,小于0的数转换为-1的函数;
随后,为了平衡不同模态之间的关系,引入平衡损失,如下所示:
Figure BDA0004028960710000148
最后,总目标损失为:
Lall=L1+L2+L3+L4+L5
通过学习以上损失函数将不同模态的相似数据映射到相近的汉明空间中,使不同模态间的不相似数据的哈希编码在汉明空间拥有更远的汉明距离,训练得到多模态哈希码生成模型;
所述多模态哈希码生成模型,在用户进行检索时,只需进行数据上传,数据经过所述训练的模型运算得到哈希编码,将哈希编码与数据库中的哈希码进行比对进而实现检索功能,提升了检索速度及准确度。
相应地,本发明还提供了一种文本内容结合图像分析的多模态内容检索***,如图6所示,包括:
数据预处理单元1,用于对数据集Imagenet中的图像集合进行标注,得到文本图像信息对。
具体地,收集图像及其对应文本描述的信息,构成数据集Imagenet,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
特征提取单元2,用于输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征。
具体地,对于图像特征,采用卷积神经网络结合一个512个节点的全连接层,同时连接一个K个节点且激活函数是softmax来构建一个图像特征提取网络,输出作为学习到的图像特征,结合一个具有标签类别数的激活函数sigmoid的全连接层,图像网络的最后一层输出预测的标签,用来保持实例的标签特征;对于文本特征,将每个文本用词袋向量表示出来,为了解决词袋向量容易导致特征稀疏的问题,采用多尺度融合模型MS来提取文本数据特征,MS包括五级池化层(1x1,2x2,3x3,5x5,10x10),在MS后连接一个4096个节点的全连接层,然后连接一个512个节点的全连接层,再连接一个K个节点且激活函数是softmax的全连接层,最后是一个具有标签类别数量的节点激活函数为sigmoid的全连接层,文本网络的倒数第二层的输出作为学习到的文本特征,最后一层输出预测的标签。
多模态注意单元3,用于输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征。
具体地,采用基于自注意力机制的多模态交叉注意机制来捕获文本与图像之间的相关性,将文本作为查询子Q,图像作为键值K和V,然后进行多模态注意力计算,将不同头的计算进行融合并进行归一化处理,得到最终的多模态特征。
哈希码生成单元4,用于分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码。
具体地,采用sign函数分别获取文本、图像以及多模态特征的哈希码,公式如下:
Figure BDA0004028960710000161
/>
多模态特征包含了文本特征和图像特征,采用多模态特征作为中间桥梁来链接不同模态之间的哈希码学习过程,图像哈希码学习过程,采用sign函数首先编码图像特征,形成图像哈希码;使用sign函数编码多模态特征,形成多模态哈希码;文本哈希码学习过程,采用sign函数编码文本特征,形成文本哈希码,在建模以上不同模态哈希码之后,构建目标损失函数。
模型训练单元5,用于输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型。
具体地,采用负对数似然损失来建模图像特征与多模态特征之间的相似关系,采用余弦相似度函数来建模图像与多模态特征之间的相似性
Figure BDA0004028960710000171
如下所示:
Figure BDA0004028960710000172
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000173
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA0004028960710000174
表示相似,-1表示不相似,/>
Figure BDA0004028960710000175
Figure BDA0004028960710000176
表示两个模态不同样本在实值空间的相似关系,F=f(xi;θx)∈RC与L=g(yi;θy)∈RC分别表示图像特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
随后,利用负对数似然损失建模文本与多模态特征之间的相似关系,采用余弦相似度函数来建模文本与多模态特征之间的相似性
Figure BDA0004028960710000177
如下所示:
Figure BDA0004028960710000178
其中,S是一个n*n的矩阵,
Figure BDA0004028960710000179
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure BDA00040289607100001710
表示相似,-1表示不相似,/>
Figure BDA00040289607100001711
Figure BDA00040289607100001712
表示两个模态不同样本在实值空间的相似关系,L=f(xi;θx)∈RC与G=g(yi;θy)∈RC分别表示文本特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,也是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
同时,为了弥补不同模态在量化过程中丢失的信息,构建量化损失,如下所示:
Figure BDA0004028960710000181
Figure BDA0004028960710000182
其中,B是一个n*c的矩阵,用于在训练时不断的存储与更新每个样本的二值哈希表示,B的产生,实际上是一个后处理的过程,通过sign(F+L)以及sign(F+G)得到sign(·)是一个将大于0的数转换为1,小于0的数转换为-1的函数;
随后,为了平衡不同模态之间的关系,引入平衡损失,如下所示:
Figure BDA0004028960710000183
最后,总目标损失为:
Lall=L1+L2+L3+L4+L5
通过学习以上损失函数将不同模态的相似数据映射到相近的汉明空间中,使不同模态间的不相似数据的哈希编码在汉明空间拥有更远的汉明距离,训练得到多模态哈希码生成模型。
数据库构建单元6,利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库。
匹配单元7,根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
因此,本发明利用卷积神经网络提取图像特征,利用词袋模型提取文本特征,采用现有先进的多模态注意方法来融合两种模态,而不采用复杂的网络来融合多模态特征,降低网络的计算复杂度。同时,本方案增加了多模态哈希码,由于不同模态之间的相关关系,多模态注意的目的是为了捕获模态之间的共性,共性特征分布在不同的单模态中,构建了模态之间相似度计算的桥梁,比传统的直接采用不同模态的哈希码进行相似度计算更容易弥补模态之间的异质鸿沟问题,而且从根本上挖掘模态之间的共性。本方案开创性的构建多模态哈希码,从而提高当前哈希码的特征表达能力,并通过哈希码的反向传播链接多模态特征的提取过程,显著地提高有效特征的提取效率。
以上对本发明实施例所提供的一种文本内容结合图像分析的多模态内容检索方法与***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述方法包括:
对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征;
输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征;
分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码;
输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型;
利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;
根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
2.如权利要求1所述的一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述对数据集Imagenet中的图像集合进行标注,得到文本图像信息对,具体为:
收集图像及其对应文本描述的信息,构成数据集Imagenet,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对。
3.如权利要求1所述的一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征,具体为:
对于图像特征,采用卷积神经网络结合一个512个节点的全连接层,同时连接一个K个节点且激活函数是softmax来构建一个图像特征提取网络,输出作为学习到的图像特征,结合一个具有标签类别数的激活函数sigmoid的全连接层,图像网络的最后一层输出预测的标签,用来保持实例的标签特征;对于文本特征,将每个文本用词袋向量表示出来,为了解决词袋向量容易导致特征稀疏的问题,采用多尺度融合模型MS来提取文本数据特征,MS包括五级池化层(1x1,2x2,3x3,5x5,10x10),在MS后连接一个4096个节点的全连接层,然后连接一个512个节点的全连接层,再连接一个K个节点且激活函数是softmax的全连接层,最后是一个具有标签类别数量的节点激活函数为sigmoid的全连接层,文本网络的倒数第二层的输出作为学习到的文本特征,最后一层输出预测的标签。
4.如权利要求1所述的一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征,具体为:
采用基于自注意力机制的多模态交叉注意机制来捕获文本与图像之间的相关性,将文本作为查询子Q,图像作为键值K和V,然后进行多模态注意力计算,将不同头的计算进行融合并进行归一化处理,得到最终的多模态特征。
5.如权利要求1所述的一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码,具体为:
采用sign函数分别获取文本、图像以及多模态特征的哈希码,公式如下:
Figure FDA0004028960700000031
多模态特征包含了文本特征和图像特征,采用多模态特征作为中间桥梁来链接不同模态之间的哈希码学习过程,图像哈希码学习过程,采用sign函数首先编码图像特征,形成图像哈希码;使用sign函数编码多模态特征,形成多模态哈希码;文本哈希码学习过程,采用sign函数编码文本特征,形成文本哈希码,在建模以上不同模态哈希码之后,构建目标损失函数。
6.如权利要求1所述的一种文本内容结合图像分析的多模态内容检索方法,其特征在于,所述输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型,具体为:
采用负对数似然损失来建模图像特征与多模态特征之间的相似关系,采用余弦相似度函数来建模图像与多模态特征之间的相似性
Figure FDA0004028960700000032
如下所示:
Figure FDA0004028960700000033
其中,S是一个n*n的矩阵,
Figure FDA0004028960700000034
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure FDA0004028960700000035
表示相似,-1表示不相似,/>
Figure FDA0004028960700000036
Figure FDA0004028960700000037
表示两个模态不同样本在实值空间的相似关系,F=f(xi;θx)∈RC与L=g(yi;θy)∈RC分别表示图像特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
随后,利用负对数似然损失建模文本与多模态特征之间的相似关系,采用余弦相似度函数来建模文本与多模态特征之间的相似性
Figure FDA0004028960700000041
如下所示:
Figure FDA0004028960700000042
其中,S是一个n*n的矩阵,
Figure FDA0004028960700000043
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure FDA0004028960700000044
表示相似,-1表示不相似,/>
Figure FDA0004028960700000045
Figure FDA0004028960700000046
表示两个模态不同样本在实值空间的相似关系,L=f(xi;θx)∈RC与G=g(yi;θy)∈RC分别表示文本特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,也是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
同时,为了弥补不同模态在量化过程中丢失的信息,构建量化损失,如下所示:
Figure FDA0004028960700000047
Figure FDA0004028960700000048
其中,B是一个n*c的矩阵,用于在训练时不断的存储与更新每个样本的二值哈希表示,B的产生,实际上是一个后处理的过程,通过sign(F+L)以及sign(F+G)得到sign(·)是一个将大于0的数转换为1,小于0的数转换为-1的函数;
随后,为了平衡不同模态之间的关系,引入平衡损失,如下所示:
Figure FDA0004028960700000049
最后,总目标损失为:
Lall=L1+L2+L3+L4+L5
通过学习以上损失函数将不同模态的相似数据映射到相近的汉明空间中,使不同模态间的不相似数据的哈希编码在汉明空间拥有更远的汉明距离,训练得到多模态哈希码生成模型;
所述多模态哈希码生成模型,在用户进行检索时,只需进行数据上传,数据经过所述训练的模型运算得到哈希编码,将哈希编码与数据库中的哈希码进行比对进而实现检索功能,提升检索速度及准确度。
7.一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述***包括:
数据预处理单元,用于对数据集Imagenet中的图像集合进行标注,得到文本图像信息对;
特征提取单元,用于输入所述文本图像信息对,构建特征提取网络提取图像与文本特征,输出图像特征与文本特征;
多模态注意单元,输入所述图像特征与所述文本特征,进行多模态注意力计算,得到加权注意力后的多模态特征;
哈希码生成单元,分别对所述图像特征、所述文本特征和所述多模态特征进行哈希生成,输出图像哈希码、文本哈希码以及多模态哈希码;
模型训练单元,输入所述图像哈希码、所述文本哈希码和所述多模态哈希码,构建目标损失函数,利用损失函数训练模型,最终得到多模态哈希码生成模型;
数据库构建单元,利用训练得到的所述多模态哈希码生成模型,从待检索的数据库中构建出该数据库的多模态哈希码数据库;
匹配单元,根据用户输入的文本信息,利用所述多模态哈希码生成模型生成多模态哈希码,再与所述构建的多模态哈希码数据库进行匹配,得到检索结果。
8.如权利要求7所述的一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述数据预处理单元,需要收集图像及其对应文本描述的信息,构成数据集Imagenet,对数据集Imagenet中的图像集合进行标注,得到文本图像信息对。
9.如权利要求7所述的一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述特征提取单元,需要对于图像特征,采用卷积神经网络结合一个512个节点的全连接层,同时连接一个K个节点且激活函数是softmax来构建一个图像特征提取网络,输出作为学习到的图像特征,结合一个具有标签类别数的激活函数sigmoid的全连接层,图像网络的最后一层输出预测的标签,用来保持实例的标签特征;对于文本特征,将每个文本用词袋向量表示出来,为了解决词袋向量容易导致特征稀疏的问题,采用多尺度融合模型MS来提取文本数据特征,MS包括五级池化层(1x1,2x2,3x3,5x5,10x10),在MS后连接一个4096个节点的全连接层,然后连接一个512个节点的全连接层,再连接一个K个节点且激活函数是softmax的全连接层,最后是一个具有标签类别数量的节点激活函数为sigmoid的全连接层,文本网络的倒数第二层的输出作为学习到的文本特征,最后一层输出预测的标签。
10.如权利要求7所述的一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述多模态注意模块,需要采用基于自注意力机制的多模态交叉注意机制来捕获文本与图像之间的相关性,将文本作为查询子Q,图像作为键值K和V,然后进行多模态注意力计算,将不同头的计算进行融合并进行归一化处理,得到最终的多模态特征。
11.如权利要求7所述的一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述哈希码生成单元,需要采用sign函数分别获取文本、图像以及多模态特征的哈希码,公式如下:
Figure FDA0004028960700000071
多模态特征包含了文本特征和图像特征,采用多模态特征作为中间桥梁来链接不同模态之间的哈希码学习过程,图像哈希码学习过程,采用sign函数首先编码图像特征,形成图像哈希码;使用sign函数编码多模态特征,形成多模态哈希码;文本哈希码学习过程,采用sign函数编码文本特征,形成文本哈希码,在建模以上不同模态哈希码之后,构建目标损失函数。
12.如权利要求7所述的一种文本内容结合图像分析的多模态内容检索***,其特征在于,所述模型训练单元,需要采用负对数似然损失来建模图像特征与多模态特征之间的相似关系,采用余弦相似度函数来建模图像与多模态特征之间的相似性
Figure FDA0004028960700000072
如下所示:
Figure FDA0004028960700000073
其中,S是一个n*n的矩阵,
Figure FDA0004028960700000074
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure FDA0004028960700000075
表示相似,-1表示不相似,/>
Figure FDA0004028960700000076
Figure FDA0004028960700000077
表示两个模态不同样本在实值空间的相似关系,F=f(xi;θx)∈RC与L=g(yi;θy)∈RC分别表示图像特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
随后,利用负对数似然损失建模文本与多模态特征之间的相似关系,采用余弦相似度函数来建模文本与多模态特征之间的相似性
Figure FDA0004028960700000078
如下所示:
Figure FDA0004028960700000079
其中,S是一个n*n的矩阵,
Figure FDA00040289607000000710
表示当前模态的第i个样本与另一模态的第j个样本之间的相似关系,/>
Figure FDA0004028960700000081
表示相似,-1表示不相似,/>
Figure FDA0004028960700000082
Figure FDA0004028960700000083
表示两个模态不同样本在实值空间的相似关系,L=f(xi;θx)∈RC与G=g(yi;θy)∈RC分别表示文本特征和多模态特征,二者都是实值的特征表示,c表示特征向量的长度,也是后续二值哈希表示的长度,也称为bit,优化以上的负对数似然损失可以使得相似关系在特征空间得以保持;
同时,为了弥补不同模态在量化过程中丢失的信息,构建量化损失,如下所示:
Figure FDA0004028960700000084
Figure FDA0004028960700000085
/>
其中,B是一个n*c的矩阵,用于在训练时不断的存储与更新每个样本的二值哈希表示,B的产生,实际上是一个后处理的过程,通过sign(F+L)以及sign(F+G)得到sign(·)是一个将大于0的数转换为1,小于0的数转换为-1的函数;
随后,为了平衡不同模态之间的关系,引入平衡损失,如下所示:
Figure FDA0004028960700000086
最后,总目标损失为:
Lall=L1+L2+L3+L4+L5
通过学习以上损失函数将不同模态的相似数据映射到相近的汉明空间中,使不同模态间的不相似数据的哈希编码在汉明空间拥有更远的汉明距离,训练得到多模态哈希码生成模型;
所述多模态哈希码生成模型,在用户进行检索时,只需进行数据上传,数据经过所述训练的模型运算得到哈希编码,将哈希编码与数据库中的哈希码进行比对进而实现检索功能,提升了检索速度及准确度。
CN202211723519.3A 2022-12-30 2022-12-30 一种文本内容结合图像分析的多模态内容检索方法与*** Pending CN116204706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211723519.3A CN116204706A (zh) 2022-12-30 2022-12-30 一种文本内容结合图像分析的多模态内容检索方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211723519.3A CN116204706A (zh) 2022-12-30 2022-12-30 一种文本内容结合图像分析的多模态内容检索方法与***

Publications (1)

Publication Number Publication Date
CN116204706A true CN116204706A (zh) 2023-06-02

Family

ID=86513886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211723519.3A Pending CN116204706A (zh) 2022-12-30 2022-12-30 一种文本内容结合图像分析的多模态内容检索方法与***

Country Status (1)

Country Link
CN (1) CN116204706A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN117094367A (zh) * 2023-10-19 2023-11-21 腾讯科技(深圳)有限公司 内容生成方法、模型训练方法、装置、电子设备及介质
CN117194605A (zh) * 2023-11-08 2023-12-08 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质
CN117521017A (zh) * 2024-01-03 2024-02-06 支付宝(杭州)信息技术有限公司 一种获取多模态特征方法和装置
CN117891960A (zh) * 2024-01-19 2024-04-16 中国科学技术大学 基于自适应梯度调制的多模态哈希检索方法和***
CN117891960B (zh) * 2024-01-19 2024-07-26 中国科学技术大学 基于自适应梯度调制的多模态哈希检索方法和***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116431847B (zh) * 2023-06-14 2023-11-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及***
CN117094367A (zh) * 2023-10-19 2023-11-21 腾讯科技(深圳)有限公司 内容生成方法、模型训练方法、装置、电子设备及介质
CN117094367B (zh) * 2023-10-19 2024-03-29 腾讯科技(深圳)有限公司 内容生成方法、模型训练方法、装置、电子设备及介质
CN117194605A (zh) * 2023-11-08 2023-12-08 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质
CN117194605B (zh) * 2023-11-08 2024-01-19 中南大学 用于多模态医学数据缺失的哈希编码方法、终端及介质
CN117521017A (zh) * 2024-01-03 2024-02-06 支付宝(杭州)信息技术有限公司 一种获取多模态特征方法和装置
CN117521017B (zh) * 2024-01-03 2024-04-05 支付宝(杭州)信息技术有限公司 一种获取多模态特征方法和装置
CN117891960A (zh) * 2024-01-19 2024-04-16 中国科学技术大学 基于自适应梯度调制的多模态哈希检索方法和***
CN117891960B (zh) * 2024-01-19 2024-07-26 中国科学技术大学 基于自适应梯度调制的多模态哈希检索方法和***

Similar Documents

Publication Publication Date Title
Zhu et al. Exploring auxiliary context: discrete semantic transfer hashing for scalable image retrieval
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐***及方法
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与***
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN111291188B (zh) 一种智能信息抽取方法及***
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
Lin et al. Mask cross-modal hashing networks
WO2020042597A1 (zh) 一种跨模态检索方法及***
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
CN112115253B (zh) 基于多视角注意力机制的深度文本排序方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113157886B (zh) 一种自动问答生成方法、***、终端及可读存储介质
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、***及计算机可读介质
CN113094534B (zh) 一种基于深度学习的多模态图文推荐方法及设备
Wang et al. Fusion-supervised deep cross-modal hashing
Song et al. A weighted topic model learned from local semantic space for automatic image annotation
CN111368176B (zh) 基于监督语义耦合一致的跨模态哈希检索方法及***
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
Wang et al. Cross-modal image–text search via efficient discrete class alignment hashing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination