CN114707007B

CN114707007B - 一种图像文本检索方法、装置及计算机存储介质

Info

Publication number: CN114707007B
Application number: CN202210635337.4A
Authority: CN
Inventors: 王丹; 张韫竹; 张翔; 王海光; 曹敏; 曹自强
Original assignee: Suzhou University
Current assignee: Suzhou Zhongyao Intelligent System Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-08-30
Anticipated expiration: 2042-06-07
Also published as: CN114707007A

Abstract

本发明公开了一种图像文本检索方法、装置及计算机存储介质，包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中，输出图像样本关键词，基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建正排表，基于正排表获取与各个图像样本关键词对应的图像样本，构建倒排表，将检索文本输入至完成训练的多标签文本分类器中，输出检索文本关键词，基于倒排表，在图像样本库中检索与检索文本关键词对应的图像样本，得到预筛选图像样本集，将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型，输出检索结果，降低图像文本检索模型的计算复杂度，将搜索引擎的倒排表引入到关键词匹配中，实现高效预筛选，提高了检索效率。

Description

一种图像文本检索方法、装置及计算机存储介质

技术领域

本发明涉及图像文本检索技术领域，特别是涉及一种图像文本检索方法、装置及计算机存储介质。

背景技术

近年来，跨模态图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。它的目的是通过一种模态下的查询样本来从一个大型存储库中检索另一种模式下的样本。具体来说，将一个文本作为查询样本来检索其相应图像称为文本到图像的检索，反之亦然。由于文本和图像这两种模式之间存在语义差异，所以文本检索具有很大的挑战性。

从广义上讲，关于图像文本检索的研究可分为两种：晚期融合和早期融合。晚期融合方法强调图像和文本的特征编码，然后利用图像和文本特征之间的简单内积来计算相似度，在学习特征表示时缺乏跨模态的信息融合，性能通常是有限的。与之相反的早期融合方法更注重设计复杂的交互模块，以便深入融合图像和文本特征，但在早期融合方法中，需要将每一对图像文本对送入模型计算相似度，这种方法效率较低，在实际应用中会存在计算成本高的问题。而采用注重效率的方法使用轻量级架构，将每一对图像文本对都送入模型计算相似度，仍需要很长时间。

因此尽管图像文本检索在准确性方面取得了蓬勃发展，但当前的图像文本检索方法仍存在着时间复杂度的问题，使得这些方法在实践应用受到了阻碍。综上所述可知，现有图像文本检索模型不能在保证性能的情况下提高检索效率。

发明内容

本发明的目的是提供一种图像文本检索方法、装置及计算机存储介质，以解决现有技术中检索效率低，耗时久的问题。

为解决上述技术问题，本发明提供一种图像文本检索方法、装置及计算机存储介质，包括：

将图像样本库内图像样本输入至完成训练的多标签图像分类器中，输出图像样本关键词；

基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表；

基于所述第一正排表，获取与各个图像样本关键词对应的图像样本，构建第一倒排表；

将检索文本输入至完成训练的多标签文本分类器中，输出检索文本关键词；

基于所述第一倒排表，在所述图像样本库中检索与所述检索文本关键词对应的图像样本，得到预筛选图像样本集；

将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型，输出检索结果。

优选地，图像文本检索方法还包括：

将文本样本库内文本样本输入至完成训练的多标签文本分类器中，输出文本样本关键词；

基于各个文本样本及其对应的文本样本关键词之间的映射关系，构建第二正排表；

基于所述第二正排表，获取与各个文本样本关键词对应的文本样本，构建第二倒排表；

将检索图像输入至完成训练的多标签图像分类器中，输出检索图像关键词；

基于所述第二倒排表，在所述文本样本库中检索与所述检索图像关键词对应的文本样本，得到预筛选文本样本集；

将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型，输出检索结果。

优选地，所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表包括：

将各个图像样本的ID指定为键，各个图像样本对应的关键词指定为值，基于键到值的映射，构建所述第一正排表。

优选地，所述构建第一倒排表包括：

根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系，检索各个图像样本关键词对应的图像样本ID，并将各个图像样本关键词指定为键，与各个图像样本关键词对应的图像样本ID指定为值，构建所述第一倒排表。

优选地，所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括：

获取训练数据集；

将所述训练数据集中图像数据集输入图像编码器中，提取图像特征值；

将所述图像特征值发送至所述多标签图像分类器，利用非对称损失函数作为多标签图像分类损失进行约束，完成所述多标签图像分类器的训练；

将所述训练数据集中文本数据集输入文本编码器中，提取文本特征值；

将所述文本特征值发送至所述多标签文本分类器中，利用非对称损失函数作为多标签文本分类损失进行约束，完成所述多标签文本分类器的训练；

将所述图像特征值与所述文本特征值发送至多模态编码器中，利用损失函数进行约束，完成所述图像文本检索模型的训练。

优选地，所述多标签图像分类器与所述多标签文本分类器采用的非对称损失函数其计算公式为：

其中，

为非对称损失函数，

为标签个数，

为正样本损失函数，

为负样本损失函数，

表示第

个标签是正确的标签，

表示第

个标签是错误的标签；

其中，

为正聚焦参数，

为负聚焦参数，

为第

个标签的输出概率，

为偏移标签概率，当

时，负样本将被丢弃。

优选地，所述将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型，输出检索结果包括：

将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征；

将所述图像特征和所述文本特征输入至多模态编码器中，通过所述多模态编码器将图像特征与文本特征融合，输出检索结果。本发明还提供了一种图像文本检索方法的装置，包括：

图像关键词预测模块，用于利用多标签图像分类器对图像样本关键词预测；

第一正排表构建模块，基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表；

第一倒排表构建模块，基于所述第一正排表，获取与各个图像样本关键词对应的图像样本，构建第一倒排表；

文本关键词预测模块，用于利用多标签文本分类器对检索文本关键词预测；

预筛选模块，用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本，得到预筛选图像样本集；

检索模块，用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型，输出检索结果。

本发明还提供了一种图像文本检索方法的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述一种图像文本检索方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种图像文本检索方法的步骤。

本发明所提供的一种图像文本检索方法，基于多标签图像分类器与多标签文本分类器构建预筛选框架，利用训练结束的多标签图像分类器和多标签文本分类器预测图像关键词和文本关键词，基于所述图像关键词和所述文本关键词构造正排表和倒排表，降低了计算复杂度，减少了预筛选的耗时，基于所述倒排表，将图像关键词和文本关键词对应的样本合并为一个预筛选候选集，提高了预筛选效率，且本发明将关键词预测转化为一个多标签分类任务，为轻量级高性能关键词预测提供了新的学习方案。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种图像文本检索方法的第一种具体实施例的流程图；

图2为分类器与图像检索网络关系图；

图3为本发明实施例提供的一种图像文本检索方法的装置结构框图。

具体实施方式

本发明的核心是提供一种图像文本检索方法、装置及计算机存储介质，降低了图像文本检索模型的计算复杂度，实现了在保证性能的同时提高了检索效率。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种图像文本检索方法的第一种具体实施例的流程图，具体操作步骤如下：

步骤S101：将图像样本库内图像样本输入至完成训练的多标签图像分类器中，输出图像样本关键词；

步骤S102：基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表；

如表1所示，将所述图像样本的ID指定为键，所述图像关键词指定为值；

表1 正排表

键	值
		1	男人，帽子，眼镜
2	狗，木棍，玻璃
		…	…
18	男人，杯子，眼镜

步骤S103：基于所述第一正排表，获取与各个图像样本关键词对应的图像样本，构建第一倒排表；

如表2所示，在关键词预测之后，我们获得了从样本到关键词的映射，即正排表。其中，图像样本的ID被指定为键，其关键词被指定为值。由于这样的正排表进行预筛选会十分耗时，我们构造了一个关键词到样本的映射，即倒排表。其中，关键词被指定为键，与其成对的样本ID作为值；

表2 倒排表

键	值
		男人	1,9,18
眼镜	6,11,18
		…	…
帽子	1,4,6

步骤S104：将检索文本输入至完成训练的多标签文本分类器中，输出检索文本关键词；

例如：检索文本为“那个打着耳洞的男人正戴着眼镜和一顶橘黄色的帽子”，该文本对应的关键词为“男人，帽子，眼镜”。

步骤S105：基于所述第一倒排表，在所述图像样本库中检索与所述检索文本关键词对应的图像样本，得到预筛选图像样本集；

在预测得到查询文本关键词之后，搜索与查询文本关键词相同的图像关键词，然后将与这些图像关键词对应的图像样本合并为一个候选集，即预筛选后的图像样本库。

步骤S106：将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型，输出检索结果；

将所述图像特征和所述文本特征输入至多模态编码器中，通过所述多模态编码器将图像特征与文本特征融合，输出检索结果。

本实施例所提供的一种图像文本检索方法，样本信息被抽象为离散形式的关键词，在图像文本检索网络之前用来预筛选。通过比较查询文本的关键词和每个图像样本的关键词来筛除那些关键词与查询文本关键词没有重叠的图像样本，降低了计算复杂度，将搜索引擎中的倒排表引入到关键词匹配中，利用倒排表技术实现高效的预筛选，提高了检索效率。

基于上述实施例文本检索图像，本实施例对图像检索文本进行描述，具体操作如下：

步骤S201：将文本样本库内文本样本输入至完成训练的多标签文本分类器中，输出文本样本关键词；

步骤S202：基于各个文本样本及其对应的文本图像样本关键词之间的映射关系，构建第二正排表；

步骤S203：基于所述第二正排表，获取与各个文本样本关键词对应的文本样本，构建第二倒排表；

步骤S204：将检索图像输入至完成训练的多标签图像分类器中，输出检索图像关键词；

步骤S205：基于所述第二倒排表，在所述文本样本库中检索与所述检索图像关键词对应的文本样本，得到预筛选文本样本集；

步骤S206：将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型，输出检索结果。

本实施例提供的一种图像文本检索方法，通过对图像检索文本进行操作，实现了基于图像检索文本以及基于文本检索图像的功能，提高了所述图像文本检索模型的检索效率，降低了模型的计算复杂度。

基于上述实施例，本实施例对多标签图像分类器、多标签文本分类器以及所述图像文本检索模型的训练过程进行阐述，如图2所示，具体操作如下：

步骤S301：构建用于训练所述多标签图像分类器和所述多标签文本分类器的训练数据集；

步骤S302：将所述训练数据集中图像数据集输入图像编码器中，提取图像特征值；

步骤S303：将所述图像特征值发送至所述多标签图像分类器中，利用非对称损失函数作为多标签分类损失进行约束，完成所述多标签图像分类器的训练；

在图像文本检索网络中的图像处理分支之后，额外添加一个多标签图像分类器，从而实现图像文本检索和多标签分类的多任务学习。其中，采用最先进的非对称损失（ASL）作为多标签分类损失来进行约束，所述非对称损失函数其计算公式为：

其中，

为非对称损失函数，

为标签个数，

为正样本损失函数，

为负样本损失函数，

表示第

个标签是正确的标签，

表示第

个标签是错误的标签；

其中，

为正聚焦参数，

为负聚焦参数，

为第

个标签的输出概率，

为偏移标签概率，当

时，负样本将被丢弃。

以多标签图像分类器为例，图像数据集中标签数量为K，基于当前图像，若标签正确，

，则该标签是当前图像的标签，若标签错误，

，则该标签不是当前图像的标签，基于非对称损失函数，完成多标签图像分类器的训练。

该损失函数在训练过程中对正样本和负样本进行了动态操作，并在分类任务中考虑了正负不平衡问题。

步骤S304：将所述训练数据集中文本数据集输入文本编码器中，提取文本特征值；

步骤S305：将所述文本特征值发送至所述多标签文本分类器中，利用非对称损失函数作为多标签分类损失进行约束，完成所述多标签文本分类器的训练；

所述多标签图像分类器训练过程中，所述图像数据的标签为与该图像成对的文本中的名词；

例如：一幅图像对应的文本描述是一位戴眼镜的女性，与其成对的文本中的名词有“眼镜”和“女性”则图像标签设置为“眼镜”“女性”，在本实施例中不多做阐述。

步骤S306：将所述图像特征值与所述文本特征值发送至多模态编码器中，利用损失函数进行约束，完成所述图像文本检索模型的训练；

在检索网络中的文本处理分支之后，也额外添加一个多标签文本分类器，从而实现图像文本检索和多标签分类的多任务学习。其中，同样采用最先进的非对称损失（ASL）作为多标签分类损失来进行约束，训练过程及损失函数与上述多标签图像分类器一致，在此不多做阐述；

其中，在多标签文本分类器的训练中，文本的标签和与该文本成对的图像的标签等同，从而确保了推理时不同模式的关键词的重叠。

本实施例提供的图像文本检索方法，利用多标签图像分类器和多标签文本分类器构建预筛选框架，将多标签图像分类器与多标签文本分类器添加到图像文本检索网络中，实现了图像文本检索和多标签分类的多任务学习，为轻量级高性能关键词预测提供了新的学习方案。

基于上述实施例，本实施例分别在

和

两个公开的图像文本检索数据集上进行了实验，具体如下所示：

所述

和所述

数据集分别包含了31014和123287幅图像，每个图像都有五个相关的文本描述。

将

分成29000张图像进行训练，1014张用于验证，1000张用于推理；

在

中使用113287张图像进行训练，5000张用于验证，5000张用于推理；

采用广泛使用的Rank-k（R@k）进行评估，（R@k表示搜索结果中最靠前（置信度最高）的k张图有正确结果的概率）同时用模态参数的数量来验证该框架的有效性。

通过实验我们分别得到了在

方法，早期融合的方法和晚期融合的方法之前应用预筛选框架的结果，无论采用哪种方法，所提出的框架都可以实现加速，同时保证了检索精度。例如，在使用

数据集进行文本检索时，添加了预筛选框架的

方法，其评估指标R@sum（R@1和R@5之和）有2.0%的提升。在使用

数据集进行图像检索时，添加了预筛选框架的

方法，其评估指标R@sum有2.8%的提升。

在早期融合方法中使用的预筛选框架与晚期融合网络在

方法中的作用相同，都是为了提高早期融合方法的检索效率。以加速同一早期融合方法

为目标，使用预筛选框架的成本远低于晚期融合网络（

和

）。具体来说，在

数据集上，该框架的运行时间平均比晚期融合网络快2072倍，在

数据集上，该框架的运行时间平均比晚期融合网络快685倍。模态参数平均比晚期融合网络低145倍。

基于上述数据，本实施例提供的一种图像文本检索方法，提出了一种简单有效的关键词引导预筛选框架，将关键字预测转化为一个多标签分类任务，为轻量级高性能关键词预测提供了新的学习方案，将搜索引擎中的倒排表引入到关键词匹配中，提高了预筛选效率，且本实施例提出关键词引导预筛选框架具有很强的兼容性，可以很容易的应用于几乎所有图像文本检索方法，在保证成本较低的同时提高了效率。

请参考图3，图3为本发明实施例提供的一种图像文本检索方法的装置结构框图；具体装置可以包括：

图像关键词预测模块100，用于利用多标签图像分类器对图像样本关键词预测；

第一正排表构建模块200，基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表；

第一倒排表构建模块300，基于所述第一正排表，获取与各个图像样本关键词对应的图像样本，构建第一倒排表；

文本关键词预测模块400，用于利用多标签文本分类器对检索文本关键词预测；

预筛选模块500，用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本；

检索模块600，用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型，输出检索结果。

本实施例的图像文本检索方法装置用于实现前述的图像文本检索方法，因此图像文本检索方法装置中的具体实施方式可见前文中的图像文本检索方法的实施例部分，例如，图像关键词预测模块100，第一正排表构建模块200，第一倒排表构建模块300，文本关键词预测模块400，预筛选模块500，检索模块600，分别用于实现上述图像文本检索方法中步骤S101，S102，S103，S104，S105和S106所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种图像文本检索方法的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种图像文本检索方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种图像文本检索方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种图像文本检索方法、装置及计算机存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。