CN114707007B - 一种图像文本检索方法、装置及计算机存储介质 - Google Patents

一种图像文本检索方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN114707007B
CN114707007B CN202210635337.4A CN202210635337A CN114707007B CN 114707007 B CN114707007 B CN 114707007B CN 202210635337 A CN202210635337 A CN 202210635337A CN 114707007 B CN114707007 B CN 114707007B
Authority
CN
China
Prior art keywords
image
text
retrieval
sample
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210635337.4A
Other languages
English (en)
Other versions
CN114707007A (zh
Inventor
王丹
张韫竹
张翔
王海光
曹敏
曹自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhongyao Intelligent System Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210635337.4A priority Critical patent/CN114707007B/zh
Publication of CN114707007A publication Critical patent/CN114707007A/zh
Application granted granted Critical
Publication of CN114707007B publication Critical patent/CN114707007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。

Description

一种图像文本检索方法、装置及计算机存储介质
技术领域
本发明涉及图像文本检索技术领域,特别是涉及一种图像文本检索方法、装置及计算机存储介质。
背景技术
近年来,跨模态图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。它的目的是通过一种模态下的查询样本来从一个大型存储库中检索另一种模式下的样本。具体来说,将一个文本作为查询样本来检索其相应图像称为文本到图像的检索,反之亦然。由于文本和图像这两种模式之间存在语义差异,所以文本检索具有很大的挑战性。
从广义上讲,关于图像文本检索的研究可分为两种:晚期融合和早期融合。晚期融合方法强调图像和文本的特征编码,然后利用图像和文本特征之间的简单内积来计算相似度,在学习特征表示时缺乏跨模态的信息融合,性能通常是有限的。与之相反的早期融合方法更注重设计复杂的交互模块,以便深入融合图像和文本特征,但在早期融合方法中,需要将每一对图像文本对送入模型计算相似度,这种方法效率较低,在实际应用中会存在计算成本高的问题。而采用注重效率的方法使用轻量级架构,将每一对图像文本对都送入模型计算相似度,仍需要很长时间。
因此尽管图像文本检索在准确性方面取得了蓬勃发展,但当前的图像文本检索方法仍存在着时间复杂度的问题,使得这些方法在实践应用受到了阻碍。综上所述可知,现有图像文本检索模型不能在保证性能的情况下提高检索效率。
发明内容
本发明的目的是提供一种图像文本检索方法、装置及计算机存储介质,以解决现有技术中检索效率低,耗时久的问题。
为解决上述技术问题,本发明提供一种图像文本检索方法、装置及计算机存储介质,包括:
将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词;
基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词;
基于所述第一倒排表,在所述图像样本库中检索与所述检索文本关键词对应的图像样本,得到预筛选图像样本集;
将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果。
优选地,图像文本检索方法还包括:
将文本样本库内文本样本输入至完成训练的多标签文本分类器中,输出文本样本关键词;
基于各个文本样本及其对应的文本样本关键词之间的映射关系,构建第二正排表;
基于所述第二正排表,获取与各个文本样本关键词对应的文本样本,构建第二倒排表;
将检索图像输入至完成训练的多标签图像分类器中,输出检索图像关键词;
基于所述第二倒排表,在所述文本样本库中检索与所述检索图像关键词对应的文本样本,得到预筛选文本样本集;
将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型,输出检索结果。
优选地,所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表包括:
将各个图像样本的ID指定为键,各个图像样本对应的关键词指定为值,基于键到值的映射,构建所述第一正排表。
优选地,所述构建第一倒排表包括:
根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系,检索各个图像样本关键词对应的图像样本ID,并将各个图像样本关键词指定为键,与各个图像样本关键词对应的图像样本ID指定为值,构建所述第一倒排表。
优选地,所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括:
获取训练数据集;
将所述训练数据集中图像数据集输入图像编码器中,提取图像特征值;
将所述图像特征值发送至所述多标签图像分类器,利用非对称损失函数作为多标签图像分类损失进行约束,完成所述多标签图像分类器的训练;
将所述训练数据集中文本数据集输入文本编码器中,提取文本特征值;
将所述文本特征值发送至所述多标签文本分类器中,利用非对称损失函数作为多标签文本分类损失进行约束,完成所述多标签文本分类器的训练;
将所述图像特征值与所述文本特征值发送至多模态编码器中,利用损失函数进行约束,完成所述图像文本检索模型的训练。
优选地,所述多标签图像分类器与所述多标签文本分类器采用的非对称损失函数其计算公式为:
Figure 728882DEST_PATH_IMAGE001
其中,
Figure 808834DEST_PATH_IMAGE002
为非对称损失函数,
Figure 945810DEST_PATH_IMAGE003
为标签个数,
Figure 9581DEST_PATH_IMAGE004
为正样本损失函数,
Figure 739640DEST_PATH_IMAGE005
为负样本损 失函数,
Figure 674098DEST_PATH_IMAGE006
表示第
Figure 480511DEST_PATH_IMAGE007
个标签是正确的标签,
Figure 765999DEST_PATH_IMAGE008
表示第
Figure 299748DEST_PATH_IMAGE007
个标签是错误的标签;
Figure 603559DEST_PATH_IMAGE009
其中,
Figure 564562DEST_PATH_IMAGE010
为正聚焦参数,
Figure 337346DEST_PATH_IMAGE011
为负聚焦参数,
Figure 159940DEST_PATH_IMAGE012
为第
Figure 600148DEST_PATH_IMAGE007
个标签的输出概率,
Figure 466473DEST_PATH_IMAGE013
为偏移标签概率,当
Figure 232611DEST_PATH_IMAGE014
时,负样本将被丢弃。
优选地,所述将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果包括:
将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征;
将所述图像特征和所述文本特征输入至多模态编码器中,通过所述多模态编码器将图像特征与文本特征融合,输出检索结果。本发明还提供了一种图像文本检索方法的装置,包括:
图像关键词预测模块,用于利用多标签图像分类器对图像样本关键词预测;
第一正排表构建模块,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
第一倒排表构建模块,基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
文本关键词预测模块,用于利用多标签文本分类器对检索文本关键词预测;
预筛选模块,用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本,得到预筛选图像样本集;
检索模块,用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果。
本发明还提供了一种图像文本检索方法的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种图像文本检索方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像文本检索方法的步骤。
本发明所提供的一种图像文本检索方法,基于多标签图像分类器与多标签文本分类器构建预筛选框架,利用训练结束的多标签图像分类器和多标签文本分类器预测图像关键词和文本关键词,基于所述图像关键词和所述文本关键词构造正排表和倒排表,降低了计算复杂度,减少了预筛选的耗时,基于所述倒排表,将图像关键词和文本关键词对应的样本合并为一个预筛选候选集,提高了预筛选效率,且本发明将关键词预测转化为一个多标签分类任务,为轻量级高性能关键词预测提供了新的学习方案。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种图像文本检索方法的第一种具体实施例的流程图;
图2为分类器与图像检索网络关系图;
图3为本发明实施例提供的一种图像文本检索方法的装置结构框图。
具体实施方式
本发明的核心是提供一种图像文本检索方法、装置及计算机存储介质,降低了图像文本检索模型的计算复杂度,实现了在保证性能的同时提高了检索效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种图像文本检索方法的第一种具体实施例的流程图,具体操作步骤如下:
步骤S101:将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词;
步骤S102:基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
如表1所示,将所述图像样本的ID指定为键,所述图像关键词指定为值;
表1 正排表
1 男人,帽子,眼镜
2 狗,木棍,玻璃
18 男人,杯子,眼镜
步骤S103:基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
如表2所示,在关键词预测之后,我们获得了从样本到关键词的映射,即正排表。其中,图像样本的ID被指定为键,其关键词被指定为值。由于这样的正排表进行预筛选会十分耗时,我们构造了一个关键词到样本的映射,即倒排表。其中,关键词被指定为键,与其成对的样本ID作为值;
表2 倒排表
男人 1,9,18
眼镜 6,11,18
帽子 1,4,6
步骤S104:将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词;
例如:检索文本为“那个打着耳洞的男人正戴着眼镜和一顶橘黄色的帽子”,该文本对应的关键词为“男人,帽子,眼镜”。
步骤S105:基于所述第一倒排表,在所述图像样本库中检索与所述检索文本关键词对应的图像样本,得到预筛选图像样本集;
在预测得到查询文本关键词之后,搜索与查询文本关键词相同的图像关键词,然后将与这些图像关键词对应的图像样本合并为一个候选集,即预筛选后的图像样本库。
步骤S106:将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果;
将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征;
将所述图像特征和所述文本特征输入至多模态编码器中,通过所述多模态编码器将图像特征与文本特征融合,输出检索结果。
本实施例所提供的一种图像文本检索方法,样本信息被抽象为离散形式的关键词,在图像文本检索网络之前用来预筛选。通过比较查询文本的关键词和每个图像样本的关键词来筛除那些关键词与查询文本关键词没有重叠的图像样本,降低了计算复杂度,将搜索引擎中的倒排表引入到关键词匹配中,利用倒排表技术实现高效的预筛选,提高了检索效率。
基于上述实施例文本检索图像,本实施例对图像检索文本进行描述,具体操作如下:
步骤S201:将文本样本库内文本样本输入至完成训练的多标签文本分类器中,输出文本样本关键词;
步骤S202:基于各个文本样本及其对应的文本图像样本关键词之间的映射关系,构建第二正排表;
步骤S203:基于所述第二正排表,获取与各个文本样本关键词对应的文本样本,构建第二倒排表;
步骤S204:将检索图像输入至完成训练的多标签图像分类器中,输出检索图像关键词;
步骤S205:基于所述第二倒排表,在所述文本样本库中检索与所述检索图像关键词对应的文本样本,得到预筛选文本样本集;
步骤S206:将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型,输出检索结果。
本实施例提供的一种图像文本检索方法,通过对图像检索文本进行操作,实现了基于图像检索文本以及基于文本检索图像的功能,提高了所述图像文本检索模型的检索效率,降低了模型的计算复杂度。
基于上述实施例,本实施例对多标签图像分类器、多标签文本分类器以及所述图像文本检索模型的训练过程进行阐述,如图2所示,具体操作如下:
步骤S301:构建用于训练所述多标签图像分类器和所述多标签文本分类器的训练数据集;
步骤S302:将所述训练数据集中图像数据集输入图像编码器中,提取图像特征值;
步骤S303:将所述图像特征值发送至所述多标签图像分类器中,利用非对称损失函数作为多标签分类损失进行约束,完成所述多标签图像分类器的训练;
在图像文本检索网络中的图像处理分支之后,额外添加一个多标签图像分类器,从而实现图像文本检索和多标签分类的多任务学习。其中,采用最先进的非对称损失(ASL)作为多标签分类损失来进行约束,所述非对称损失函数其计算公式为:
Figure 108163DEST_PATH_IMAGE001
其中,
Figure 137299DEST_PATH_IMAGE002
为非对称损失函数,
Figure 174525DEST_PATH_IMAGE003
为标签个数,
Figure 938213DEST_PATH_IMAGE004
为正样本损失函数,
Figure 617456DEST_PATH_IMAGE005
为负样本损 失函数,
Figure 501098DEST_PATH_IMAGE006
表示第
Figure 489652DEST_PATH_IMAGE007
个标签是正确的标签,
Figure 458745DEST_PATH_IMAGE008
表示第
Figure 676100DEST_PATH_IMAGE007
个标签是错误的标签;
Figure 696139DEST_PATH_IMAGE009
其中,
Figure 75168DEST_PATH_IMAGE010
为正聚焦参数,
Figure 314913DEST_PATH_IMAGE011
为负聚焦参数,
Figure 335958DEST_PATH_IMAGE012
为第
Figure 194193DEST_PATH_IMAGE007
个标签的输出概率,
Figure 26014DEST_PATH_IMAGE013
为偏移标签概率,当
Figure 969699DEST_PATH_IMAGE014
时,负样本将被丢弃。
以多标签图像分类器为例,图像数据集中标签数量为K,基于当前图像,若标签正确,
Figure 528857DEST_PATH_IMAGE006
,则该标签是当前图像的标签,若标签错误,
Figure 241598DEST_PATH_IMAGE008
,则该标签不是当前图像的标签,基于非对称损失函数,完成多标签图像分类器的训练。
该损失函数在训练过程中对正样本和负样本进行了动态操作,并在分类任务中考虑了正负不平衡问题。
步骤S304:将所述训练数据集中文本数据集输入文本编码器中,提取文本特征值;
步骤S305:将所述文本特征值发送至所述多标签文本分类器中,利用非对称损失函数作为多标签分类损失进行约束,完成所述多标签文本分类器的训练;
所述多标签图像分类器训练过程中,所述图像数据的标签为与该图像成对的文本中的名词;
例如:一幅图像对应的文本描述是一位戴眼镜的女性,与其成对的文本中的名词有“眼镜”和“女性”则图像标签设置为“眼镜”“女性”,在本实施例中不多做阐述。
步骤S306:将所述图像特征值与所述文本特征值发送至多模态编码器中,利用损失函数进行约束,完成所述图像文本检索模型的训练;
将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征;
将所述图像特征和所述文本特征输入至多模态编码器中,通过所述多模态编码器将图像特征与文本特征融合,输出检索结果。
在检索网络中的文本处理分支之后,也额外添加一个多标签文本分类器,从而实现图像文本检索和多标签分类的多任务学习。其中,同样采用最先进的非对称损失(ASL)作为多标签分类损失来进行约束, 训练过程及损失函数与上述多标签图像分类器一致,在此不多做阐述;
其中,在多标签文本分类器的训练中,文本的标签和与该文本成对的图像的标签等同,从而确保了推理时不同模式的关键词的重叠。
本实施例提供的图像文本检索方法,利用多标签图像分类器和多标签文本分类器构建预筛选框架,将多标签图像分类器与多标签文本分类器添加到图像文本检索网络中,实现了图像文本检索和多标签分类的多任务学习,为轻量级高性能关键词预测提供了新的学习方案。
基于上述实施例,本实施例分别在
Figure 742855DEST_PATH_IMAGE015
Figure 439416DEST_PATH_IMAGE016
两个公开的图像文本检索数据集上进行了实验,具体如下所示:
所述
Figure 552996DEST_PATH_IMAGE015
和所述
Figure 385823DEST_PATH_IMAGE016
数据集分别包含了31014和123287幅图像,每个图像都有五个相关的文本描述。
Figure 808714DEST_PATH_IMAGE015
分成29000张图像进行训练,1014张用于验证,1000张用于推理;
Figure 244768DEST_PATH_IMAGE016
中使用113287张图像进行训练,5000张用于验证,5000张用于推理;
采用广泛使用的Rank-k(R@k)进行评估,(R@k表示搜索结果中最靠前(置信度最高)的k张图有正确结果的概率)同时用模态参数的数量来验证该框架的有效性。
通过实验我们分别得到了在
Figure 880149DEST_PATH_IMAGE017
方法,早期融合的方法和晚期融合的方法之前应用预筛选框架的结果,无论采用哪种方法,所提出的框架都可以实现加速,同时保证了检索精度。例如,在使用
Figure 833061DEST_PATH_IMAGE015
数据集进行文本检索时,添加了预筛选框架的
Figure 912007DEST_PATH_IMAGE018
方法,其评估指标R@sum(R@1和R@5之和)有2.0%的提升。在使用
Figure 583160DEST_PATH_IMAGE016
数据集进行图像检索时,添加了预筛选框架的
Figure 553390DEST_PATH_IMAGE019
方法,其评估指标R@sum有2.8%的提升。
在早期融合方法中使用的预筛选框架与晚期融合网络在
Figure 610076DEST_PATH_IMAGE017
方法中的作用相同,都是为了提高早期融合方法的检索效率。以加速同一早期融合方法
Figure 109191DEST_PATH_IMAGE019
为目标,使用预筛选框架的成本远低于晚期融合网络(
Figure 18372DEST_PATH_IMAGE020
Figure 261134DEST_PATH_IMAGE021
)。具体来说,在
Figure 923060DEST_PATH_IMAGE015
数据集上,该框架的运行时间平均比晚期融合网络快2072倍,在
Figure 110852DEST_PATH_IMAGE016
数据集上,该框架的运行时间平均比晚期融合网络快685倍。模态参数平均比晚期融合网络低145倍。
基于上述数据,本实施例提供的一种图像文本检索方法,提出了一种简单有效的关键词引导预筛选框架,将关键字预测转化为一个多标签分类任务,为轻量级高性能关键词预测提供了新的学习方案,将搜索引擎中的倒排表引入到关键词匹配中,提高了预筛选效率,且本实施例提出关键词引导预筛选框架具有很强的兼容性,可以很容易的应用于几乎所有图像文本检索方法,在保证成本较低的同时提高了效率。
请参考图3,图3为本发明实施例提供的一种图像文本检索方法的装置结构框图;具体装置可以包括:
图像关键词预测模块100,用于利用多标签图像分类器对图像样本关键词预测;
第一正排表构建模块200,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
第一倒排表构建模块300,基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
文本关键词预测模块400,用于利用多标签文本分类器对检索文本关键词预测;
预筛选模块500,用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本;
检索模块600,用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果。
本实施例的图像文本检索方法装置用于实现前述的图像文本检索方法,因此图像文本检索方法装置中的具体实施方式可见前文中的图像文本检索方法的实施例部分,例如,图像关键词预测模块100,第一正排表构建模块200,第一倒排表构建模块300,文本关键词预测模块400,预筛选模块500,检索模块600,分别用于实现上述图像文本检索方法中步骤S101,S102,S103,S104,S105和S106所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种图像文本检索方法的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种图像文本检索方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像文本检索方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种图像文本检索方法、装置及计算机存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种图像文本检索方法,其特征在于,包括:
将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词;
基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词;
基于所述第一倒排表,在所述图像样本库中检索与所述检索文本关键词对应的图像样本,得到预筛选图像样本集;
将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果。
2.如权利要求1所述图像文本检索方法,其特征在于,还包括:
将文本样本库内文本样本输入至完成训练的多标签文本分类器中,输出文本样本关键词;
基于各个文本样本及其对应的文本样本关键词之间的映射关系,构建第二正排表;
基于所述第二正排表,获取与各个文本样本关键词对应的文本样本,构建第二倒排表;
将检索图像输入至完成训练的多标签图像分类器中,输出检索图像关键词;
基于所述第二倒排表,在所述文本样本库中检索与所述检索图像关键词对应的文本样本,得到预筛选文本样本集;
将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型,输出检索结果。
3.如权利要求1所述图像文本检索方法,其特征在于,所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表包括:
将各个图像样本的ID指定为键,各个图像样本对应的关键词指定为值,基于键到值的映射,构建所述第一正排表。
4.如权利要求3所述图像文本检索方法,其特征在于,所述构建第一倒排表包括:
根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系,检索各个图像样本关键词对应的图像样本ID,并将各个图像样本关键词指定为键,与各个图像样本关键词对应的图像样本ID指定为值,构建所述第一倒排表。
5.如权利要求1所述图像文本检索方法,其特征在于,所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括:
获取训练数据集;
将所述训练数据集中图像数据集输入图像编码器中,提取图像特征值;
将所述图像特征值发送至所述多标签图像分类器,利用非对称损失函数作为多标签图像分类损失进行约束,完成所述多标签图像分类器的训练;
将所述训练数据集中文本数据集输入文本编码器中,提取文本特征值;
将所述文本特征值发送至所述多标签文本分类器中,利用非对称损失函数作为多标签文本分类损失进行约束,完成所述多标签文本分类器的训练;
将所述图像特征值与所述文本特征值发送至多模态编码器中,利用损失函数进行约束,完成所述图像文本检索模型的训练。
6.如权利要求5所述图像文本检索方法,其特征在于,所述多标签图像分类器与所述多标签文本分类器采用的非对称损失函数其计算公式为:
Figure 277746DEST_PATH_IMAGE001
其中,
Figure 871669DEST_PATH_IMAGE002
为非对称损失函数,
Figure 171457DEST_PATH_IMAGE003
为标签个数,
Figure 543532DEST_PATH_IMAGE004
为正样本损失函数,
Figure 145415DEST_PATH_IMAGE005
为负样本损失函 数,
Figure 746292DEST_PATH_IMAGE006
表示第
Figure 382810DEST_PATH_IMAGE007
个标签是正确的标签,
Figure 660207DEST_PATH_IMAGE008
表示第
Figure 795391DEST_PATH_IMAGE007
个标签是错误的标签;
Figure 465538DEST_PATH_IMAGE009
其中,
Figure 690983DEST_PATH_IMAGE010
为正聚焦参数,
Figure 404861DEST_PATH_IMAGE011
为负聚焦参数,
Figure 510831DEST_PATH_IMAGE012
为第
Figure 702778DEST_PATH_IMAGE007
个标签的输出概率,
Figure 799041DEST_PATH_IMAGE013
为偏移标签概率,当
Figure 418241DEST_PATH_IMAGE014
时,负样本将被丢弃。
7.如权利要求1所述的图像文本检索方法,其特征在于,所述将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果包括:
将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征;
将所述图像特征和所述文本特征输入至多模态编码器中,通过所述多模态编码器将图像特征与文本特征融合,输出检索结果。
8.一种图像文本检索方法的装置,其特征在于,包括:
图像关键词预测模块,用于利用多标签图像分类器对图像样本关键词预测;
第一正排表构建模块,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;
第一倒排表构建模块,基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;
文本关键词预测模块,用于利用多标签文本分类器对检索文本关键词预测;
预筛选模块,用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本,得到预筛选图像样本集;
检索模块,用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果。
9.一种图像文本检索方法的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种图像文本检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种图像文本检索方法的步骤。
CN202210635337.4A 2022-06-07 2022-06-07 一种图像文本检索方法、装置及计算机存储介质 Active CN114707007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210635337.4A CN114707007B (zh) 2022-06-07 2022-06-07 一种图像文本检索方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210635337.4A CN114707007B (zh) 2022-06-07 2022-06-07 一种图像文本检索方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN114707007A CN114707007A (zh) 2022-07-05
CN114707007B true CN114707007B (zh) 2022-08-30

Family

ID=82177858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210635337.4A Active CN114707007B (zh) 2022-06-07 2022-06-07 一种图像文本检索方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114707007B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512005A (zh) * 2022-08-22 2022-12-23 华为技术有限公司 一种数据处理方法及其装置
CN116049459B (zh) * 2023-03-30 2023-07-14 浪潮电子信息产业股份有限公司 跨模态互检索的方法、装置、服务器及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023989A (zh) * 2009-09-23 2011-04-20 阿里巴巴集团控股有限公司 一种信息检索方法及其***
CN103678694A (zh) * 2013-12-26 2014-03-26 乐视网信息技术(北京)股份有限公司 视频资源的倒排索引文件建立方法及其***
CN108895987A (zh) * 2018-07-17 2018-11-27 苏州大学 基于复合涡旋光干涉的透镜曲率半径测量方法
US10614366B1 (en) * 2006-01-31 2020-04-07 The Research Foundation for the State University o System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN111030952A (zh) * 2019-12-25 2020-04-17 内蒙古大学 一种毫米波***的波束空间信道估计方法及***
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614366B1 (en) * 2006-01-31 2020-04-07 The Research Foundation for the State University o System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN102023989A (zh) * 2009-09-23 2011-04-20 阿里巴巴集团控股有限公司 一种信息检索方法及其***
CN103678694A (zh) * 2013-12-26 2014-03-26 乐视网信息技术(北京)股份有限公司 视频资源的倒排索引文件建立方法及其***
CN108895987A (zh) * 2018-07-17 2018-11-27 苏州大学 基于复合涡旋光干涉的透镜曲率半径测量方法
CN111030952A (zh) * 2019-12-25 2020-04-17 内蒙古大学 一种毫米波***的波束空间信道估计方法及***
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Lightweight Multi-Scale Crossmodal Text-Image Retrieval Method in Remote Sensing;Zhiqiang Yuan et al.;《IEEE Transactions on Geoscience and Remote Sensing》;20211029;1-19 *
基于深度学习的大规模语义文本重叠区域检索;董丽丽 等;《吉林大学学报(工学版)》;20210930;1817-1822 *
多模态图像检索技术;王洋;《中国博士学位论文全文数据库 信息科技辑》;20131015;I138-66 *

Also Published As

Publication number Publication date
CN114707007A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN114707007B (zh) 一种图像文本检索方法、装置及计算机存储介质
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答***及方法
CN110727779A (zh) 基于多模型融合的问答方法及***
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN109597493B (zh) 一种表情推荐方法及装置
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN111291172B (zh) 用于处理文本的方法和装置
CN110990532A (zh) 一种处理文本的方法和装置
CN112270188A (zh) 一种提问式的分析路径推荐方法、***及存储介质
CN111401928A (zh) 基于图数据确定文本的语义相似度的方法及装置
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN113946698A (zh) 一种融合多粒度数据和近邻数据的跨媒体检索方法及***
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN113742488A (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN110659392B (zh) 检索方法及装置、存储介质
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及***
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN112712056A (zh) 视频语义分析方法、装置、存储介质及电子设备
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及***
CN116090450A (zh) 一种文本处理方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240120

Address after: Room 1505, 15th Floor, West Building of Wanda Plaza, No. 188 Shihu West Road, Changqiao Street, Wuzhong District, Suzhou City, Jiangsu Province, 215000 (Suzhou University National University Science and Technology Park Wuzhong Branch)

Patentee after: Suzhou Zhongyao Intelligent System Co.,Ltd.

Country or region after: China

Address before: No. 188, Shihu West Road, Wuzhong District, Suzhou City, Jiangsu Province

Patentee before: SOOCHOW University

Country or region before: China

TR01 Transfer of patent right