CN116796032A

CN116796032A - 一种基于自适应图注意力哈希的多模态数据检索模型

Info

Publication number: CN116796032A
Application number: CN202310380197.5A
Authority: CN
Inventors: 李明勇; 李业文
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-09-22

Abstract

本发明公开了一种基于自适应图注意力哈希的多模态数据检索模型，建立深度无监督的跨模态哈希模型,引入注意力机制及图神经网络；构建基于CLIP的自适应图注意网络(CAGAN)的无监督跨模态哈希检索框架并进行目标及函数的优化；本发明首先进行数据集数据的采集，根据采集数据进行综合实验并进行指标的评价，再进行实验细节的实现；进行数据集的对比实验、消融实验及超参数的敏感性分析；进行收敛实验然后再进行跨模态哈希检索结果的可视化。本发明涉及一种基于自适应图注意力哈希的多模态数据检索模型，具有跨模态检索准确率高,数据存储消耗低和检索速度快的特点。

Description

一种基于自适应图注意力哈希的多模态数据检索模型

技术领域

本发明属于多模态数据检索技术领域，具体为一种基于自适应图注意力哈希的多模态数据检索模型。

背景技术

跨模态哈希检索的基本思路是：利用不同模态的样本对信息，学***衡的问题，从而导致了次优的检索结果。具体来说，它很难用不同模态的简单数据特征来全面衡量复杂的数据关联性。在从真实值到二值化的过程中，哈希码的原始结构被破坏，存在信息损失。此外，多模态学***衡的问题，现有的方法训练效率仍然有限。

为了解决这些问题，我们提出了一个新颖而有效的基于CLIP的自适应图注意力网络用于大规模无监督的跨模态哈希检索。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于自适应图注意力哈希的多模态数据检索模型，解决了背景技术中提到的问题。

为了解决上述问题，本发明提供了一种技术方案。一种基于自适应图注意力哈希的多模态数据检索模型，具体步骤包括：

步骤S101：建立深度无监督的跨模态哈希,引入注意力机制及图神经网络；

步骤S102：构建基于CLIP的自适应图注意网络(CAGAN)的无监督跨模态哈希检索框架并进行目标及函数的优化；

步骤S103：进行数据集数据的采集，根据采集数据进行综合实验并进行指标的评价，再进行实验细节的实现；

步骤S104：进行数据集的对比实验、消融实验及超参数的敏感性分析；

步骤S105：进行收敛实验然后再进行跨模态哈希检索结果的可视化。

首先，本发明使用CLIP提取跨模态语义特征，它从自然语言监督中学习可转移的视觉模型；从而提取多模态数据细粒度的语义特征。

本发明设计了一个多模态相似性增强模块来融合和增强不同模态数据的相似性信息，这可以有效缓解多模态数据的不准确的相似性测量；

本发明采用了一种注意机制，关注相关的特征特性；它可以将提取的特征通过注意力模块转移到不同模态的重要信息中，构建一个注意力感知的语义融合矩阵；

本发明提出基于GCN的跨模态哈希方法；具体来说，基于GCN的跨模态哈希方法采用语义指导下的多个模态个体GCN；

其中，独立作用于每个模态以保持模态内的相似性，并采用图卷积神经网络来聚合各模态实例的相似性信息，从而进一步挖掘不同模态数据的语义相关性；

本发明全面地利用不同模态的特征来构建语义亲和图，缓解数据节点之间的关系度量不准确；

本发明设计了一个自适应图注意模块来解决这个问题，它使用注意力机制来学习语义亲和图，并通过图卷积聚合相似节点之间的信息，从而使相似数据产生更一致的哈希代码。

所述步骤S102中，框架包括深度特征编码模块、多模态相似性增强模块、自适应图注意力模块、哈希码重构模块；深度编码模块包含两个主要的网络：视觉编码网络和文本编码网络；

提出了一个有效且新颖的基于CLIP的自适应图注意网络(CAGAN)，应用于无监督的跨模态哈希检索任务。

其中，我们首次将视觉语言模型CLIP应用于无监督的图像-文本哈希检索。为了缓解不准确相似性的问题，我们设计了一个多模态相似性增强模块来增强数据的相似性，这有助于提高检索的准确率。

此外，一个迭代近似优化策略被用来减少哈希码二值化过程中的信息损失。

最后，一个精心设计的图自适应注意力模块可以辅助哈希网络的学***衡的问题。在三个基准数据集上进行的充分的实验表明，所提出的方法优于几个有代表性的先进方法，实现了最佳的检索精度。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的工作流程图；

图2为本发明的无监督跨模态哈希检索框架图；

图3为本发明的三个跨模态检索基准数据集上128位哈希码的top-N精度曲线比较图；

图4为本发明图在三个多模态检索基准数据集的超参数敏感性分析图；

图5为本发明图的CAGAN在三个广泛使用的多媒体数据集上的损失函数收敛曲线和MAP变化曲线图；

具体实施方式

如图1所示，本具体实施方式详细描述如下：

一种基于自适应图注意力哈希的多模态数据检索模型，具体步骤包括：

其中，所述步骤S101中，本发明使用CLIP提取跨模态语义特征，它从自然语言监督中学习可转移的视觉模型；一个多模态相似性增强模块来融合和增强不同模态数据的相似性信息，这可以有效缓解多模态数据的不准确的相似性测量；本发明提出了一个具有注意力机制的对抗哈希网络，通过选择性地关注多模态数据中的信息部分来增强内容相似性的测量，关注相关的特征特性；它可以将提取的特征通过注意力模块转移到不同模态的重要信息中，构建一个注意力感知的语义融合矩阵；此外，本发明设计了一个自适应图注意模块来解决这个问题，它使用注意力机制来学习语义亲和图，并通过图卷积聚合相似节点之间的信息，从而使相似数据产生更一致的哈希代码。

其中，所述步骤S102中，先进行符号和问题定义，给定一个跨模态数据集其中v_i和t_i表示成对的图像文本；我们将数据分成小批量o＝{o₁,o₂,···,o_m}，其中m表示批量大小，o_j＝[v_j,t_j]表示每个批量数据中第j个图像文本对；对于每个随机采样的批量训练样本/>我们使用/>表示视觉模态的特征表示，表示文本模态的特征表示；同时，我们将哈希编码网络生成的哈希码表示为B_v∈{-1,+1}^m×c和B_t∈{-1,+1}^m×c，将图卷积神经网络生成的哈希码表示为/>和其中c代表哈希码的长度；

在构建相似性矩阵阶段，我们首先将F_v和F_t进行l₂归一化为和/>之后我们使用余弦相似性分别计算视觉和文本模态的相似性矩阵/>和它们依次用来描述原始图像和文本数据之间的固有相似性；此外，我们可以将生成的哈希码B_v和B_t视为只能取高维空间顶点的特征向量；从这个角度来看，相邻顶点对应于相似的哈希码，也就是说，两个哈希码之间的汉明距离可以用它们的余弦角度距离表示；

哈希方法通过映射原始特征到二进制编码(汉明)空间的方式节省存储存储空间并提高检索速度；与此同时，映射的过程中应保持数据的相似性(原始空间中高度相似的数据映射到汉明空间，其哈希码间的距离也小。

其中，所述步骤S102中，框架包括深度特征编码模块、多模态相似性增强模块、自适应图注意力模块、哈希码重构模块；深度编码模块包含两个主要的网络：视觉编码网络和文本编码网络；以CLIP为代表表的视觉语言预训练(VLP)模型已被证明在学习文本和视觉表示方面更有效；在本发明中，我们采用CLIP视觉编码器和多层感知机作为主干网络，它能够充分提取原始数据的语义信息并学习跨模态特征；我们将视觉编码器表示为Enc_v,文本编码器表示为Enc_t,特征编码公式表示如下:

其中V和T表示批量的图像和文本训练样本；θ_v和θ_t表示视觉和文本特征编码网络的参数；然后我们用MLP学习哈希函数并生成哈希码，公式如下：

H_v＝MLP_v(F_v,θ_Hv)∈[-1,+1]^m×c,H_t＝MLP_t(F_t,θ_Ht)∈[-1,+1]^m×c. (2)

因此，我们可以对不同模态的丰富语义特征进行编码，更好地描述原始数据之间的语义相似性，进一步指导哈希码的学习；

B_v＝tanh(αH_v)∈[-1,+1]^m×c,B_t＝tanh(αH_t)∈[-1,+1]^m×c (3)

其中α表示迭代次数；随着迭代次数的增加，双曲正切函数收敛为符号函数；迭代近似优化策略用于减轻哈希码二值化过程中的信息丢失；特别地，我们使用小批量视觉特征构建视觉模态相似度矩阵/>其中对于文本模态，我们直接利用特征/>由词袋处理以创建文本余弦相似度矩阵/>其中/>

随后，我们构建了一个跨模态相似度矩阵来捕获不同模态实例的共现相似度；特别地，我们使用视觉模态相似度矩阵S_v和文本模态相似度矩阵S_t来构建跨模态余弦相似度矩阵S_c可以保留图像和文本模态实例之间的共现信息；融合过程的方程描述如下：

其中(·)^T表示矩阵的转置；此外，我们构建了一个语义保留的亲和矩阵S_A，它整合了来自不同矩阵的信息，公式表示如下：

其中η、β、λ是平衡超参数，用于权衡图像和文本模态之间相似性矩阵的重要性程度；最后，我们对融合亲和矩阵S_A进行相似度增强，公式如下：

其中S_max,S_mean,S_min分别表示相似度矩阵的最大值、平均值和最小值；相似度矩阵增强的公式如下：

相似度增强后，相似度增强矩阵可以表示为:与以往的无监督方法相比，这种相似性增强通过设置阈值使相似数据更近，不相似数据相似度更不相似，从而为哈希码的学习提供更好的监督信号；

自适应图注意力模块模块能够学习自适应不同模态的图邻域相关性，并采用注意力机制来学习自适应模态的相似度矩阵，公式如下：

其中和/>表示视觉和文本模态的投影矩阵，γ是一个权衡的超参数；并通过GCN聚合相似节点之间的信息，以生成更一致的哈希码；随后，我们将注意力相似度矩阵传递到一个双层图卷积网络中，该网络聚合了相似节点之间的图邻域相关性：

其中D_ii＝∑_js_ij,W⁽¹⁾和W⁽²⁾是参数矩阵，σ₁和σ₂表示第一层和第二层的激活函数；表示视觉和文本模态图卷积网络的第i层的输出；在训练过程中迭代更新注意力矩阵，最大化实例之间的相似关系，然后通过图卷积网络聚合相似节点的信息，生成更加一致的哈希码，有助于提高图像和文本检索的性能；图卷积生成的哈希码如下：

其中α表示迭代次数，我们使用迭代近似优化策略来优化哈希码；当时，离散问题转化为一系列连续优化问题，可以有效缓解哈希码二值化过程中信息丢失和不稳定的问题；

为了更好的优化哈希码，我们来自将网络生成的哈希码B_v、B_t、B_v和B_v来构建余弦相似度矩阵其中S_*＝cos(S_*,S_*),*∈{v,t},最后，我们用它们和相似度增强矩阵S_E构造损失函数；这些损失函数公式如下：

其中L_Intra和L_Cross分别表示模态内损失和跨模态损失；L_Gcn表示图卷积重构损失；μ是尺度超参数，可以调节增强矩阵的量化范围，符号表示矩阵逐位乘法。

其中，所述步骤102中，目标及函数优化所提出的方法可以通过反向传播算法迭代更新整个网络的参数，直到网络收敛，完成哈希码的重构过程；总损失的公式如下：

是权衡超参数；最小化上述损失函数可以让相似的数据生成更一致的哈希码；所提出的CAGAN方法可以逐批迭代优化，通过最小化损失，生成高质量的哈希码；整个CAGAN模型可以使用SGD和Adam优化算法进行优化。

所述步骤S103中，数据集通过Flickr网站上的多标签数据集目前有25000张照片和来自24个不同类别的相关文字描述标签；为了表示相关的文本内容。NUS-WIDE数据集包含269,648张从真实场景中收集的图像及其相应的文字描述和标签；MS COCO是一个广泛使用的、多样化的数据集，用于物体识别、多媒体检索和语义分割；该数据集包含123,287张从错综复杂的日常场景中获得的图像，照片中的物体通过仔细的分割被定位；在我们的实验中，我们使用了87,081张带有91类信息的照片，每张照片对应的文本由2000维的词包向量表示；

其中，所述步骤S103中，评价指标在实验中，我们采用了两个广泛使用的检索测量指标；平均精度(MAP)和top-N曲线的精度来衡量所提出的模型与其他方法相比的检索性能；精度和排名信息可以很好地反映在测量方法中。

本发明的使用状态为：

在对比实验中，我们比较了两个跨模态的检索任务：I→T和T→I：使用图像查询文本和使用文本检索图像。本发明比较了所有基线和CAGAN在这两个检索任务中分别以MAP@5000和Top-N精度曲线的评价指标进行。

MAP@5000比较结果：表1显示了在三个基准数据集(MIRFlickr-25K、NUS-WIDE和MSCOCO)上，所提出的CAGAN与其他最先进的无监督跨模态哈希方法在哈希代码长度为16位到128位时的MAP@5000结果。从表1中的数据可以看出，我们提出的方法优于所有比较的基线。与最先进的无监督跨模态哈希方法相比，我们的方法有大约1.5％-3％的性能改进，这证实了所提出的CAGAN的优越性。我们提出的方法在有大量类别的数据集(MSCOCO)上的性能改进更为明显，并且在哈希码长度较低的情况下仍然保持良好的性能。这方面反映了所提出的模型在细粒度检索方面的优秀能力，它更适合于实际应用。

Top-N精度曲线:图4显示了在三个基准数据集上比较提出的方法和所有11个基线方法的top-N精度曲线。从图4中的曲线可以看出，我们的方法优于所有的对比基线，这直观地反映了我们CAGAN的效率。值得注意的是，随着检索实例数量的增加，我们提出的方法的top-N准确率曲线下降缓慢。最后，与MAP比较结果一起，top-N准确率曲线也可以说明我们提出的方法减轻了二值化过程中的准确率损失，从而提高了检索性能，并在检索样本数增加时保持了较高的准确率。

表1：所提出方法在不同哈希码长度和数据集下的图像-文本检索任务的MAP@5000结果(I→T表示图像搜索文本任务，反之亦然)。

表中所对比方法的参考文献如下：

[1]Su,S.,Zhong,Z.,&Zhang,C.(2019).Deep joint-semantics reconstructinghashing for large-scale unsupervised cross-modal retrieval.In Proceedings ofthe IEEE/CVF international conference on computer vision(pp.3027-3035).

[2]Liu,S.,Qian,S.,Guan,Y.,Zhan,J.,&Ying,L.(2020,July).Joint-modaldistribution-based similarity hashing for large-scale unsupervised deepcross-modal retrieval.In Proceedings of the 43rd International ACM SIGIRconference on research and development in Information Retrieval(pp.1379-1388).

[3]Zhang,P.F.,Li,Y.,Huang,Z.,&Xu,X.S.(2021).Aggregation-based graphconvolutional hashing for unsupervised cross-modal retrieval.IEEETransactions on Multimedia,24,466-479.

[4]Yu,J.,Zhou,H.,Zhan,Y.,&Tao,D.(2021,May).Deep graph-neighborcoherence preserving network for unsupervised cross-modal hashing.InProceedings of the AAAI Conference on Artificial Intelligence(Vol.35,No.5,pp.4626-4634).

[5]Yang,D.,Wu,D.,Zhang,W.,Zhang,H.,Li,B.,&Wang,W.(2020,June).Deepsemantic-alignment hashing for unsupervised cross-modal retrieval.InProceedings of the 2020international conference on multimedia retrieval(pp.44-52).

[6]Zhang,P.F.,Luo,Y.,Huang,Z.,Xu,X.S.,&Song,J.(2021).High-ordernonlocal Hashing for unsupervised cross-modal retrieval.World Wide Web,24,563-583.

[7]Mikriukov,G.,Ravanbakhsh,M.,&Demir,B.(2022).Deep unsupervisedcontrastive hashing for large-scale cross-modal text-image retrieval inremote sensing.arXiv preprint arXiv:2201.08125.

[8]Shi,Y.,Zhao,Y.,Liu,X.,Zheng,F.,Ou,W.,You,X.,&Peng,Q.(2022).Deepadaptively-enhanced hashing with discriminative similarity guidance forunsupervised cross-modal retrieval.IEEE Transactions on Circuits and Systemsfor Video Technology,32(10),7255-7268.

为了证明我们提出的方法中每个模块的有效性和贡献，对每个模块进行了消融实验。为此，我们设计了五个模型的变体，以验证每个模块对整个模型的影响。消融实验的对比结果显示在表5中。

我们研究了所提出的CAGAN在三个基线数据集上的收敛性和训练效率。显示了16位哈希码长度下的最终损失函数收敛曲线，显示了随着迭代次数的增加，MAP的变化曲线。

从图的结果可以得出以下结论。首先，随着优化迭代次数的增加，损失函数逐渐减小，结果表明，优化过程可以提高哈希函数的编码能力。说明我们的方法减少了训练时间的消耗，提高了训练效率。最后，研究结果表明，所提出的网络在几十次迭代中就收敛到了最优点。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于自适应图注意力哈希的多模态数据检索模型，其特征在于：具体步骤包括：

步骤S105：进行收敛实验和训练效率分析然后再进行跨模态哈希检索。

2.根据权利要求1所述的一种基于自适应图注意力哈希的多模态数据检索模型，其特征在于：所述步骤S101中，本发明使用CLIP提取跨模态语义特征，它从自然语言监督中学习可转移的视觉模型；一个多模态相似性增强模块来融合和增强不同模态数据的相似性信息，这可以有效缓解多模态数据的不准确的相似性测量；通过关注众多输入中对当前目标更为关键的信息，减少对其他信息的关注，注意力机制可以解决信息冗余问题，基于注意力采用了一种注意机制，构建一个注意力感知的语义融合矩阵；本发明设计了一个自适应图注意模块来解决这个问题，它使用注意力机制来学习语义亲和图，并通过图卷积聚合相似节点之间的信息，从而使相似数据产生更一致的哈希代码。

3.根据权利要求1所述的一种基于自适应图注意力哈希的多模态数据检索模型，其特征在于：所述步骤S102中，框架包括深度特征编码模块、多模态相似性增强模块、自适应图注意力模块、哈希码重构模块；深度编码模块包含两个主要的网络：视觉编码网络和文本编码网络；在本文中，我们采用CLIP视觉编码器和多层感知机作为主干网络，它能够充分提取原始数据的语义信息并学习跨模态特征。

4.根据权利要求1所述的自适应图注意力模块模块能够学习自适应不同模态的图邻域相关性，并采用注意力机制来学习自适应模态的相似度矩阵，随后，我们将注意力相似度矩阵传递到一个双层图卷积网络中，该网络聚合了相似节点之间的图邻域相关性；因此我们可以使用注意力机制来学习不同模态数据之间的相似性；在训练过程中迭代更新注意力矩阵，最大化实例之间的相似关系，然后通过图卷积网络聚合相似节点的信息，生成更加一致的哈希码，有助于提高图像和文本检索的性能；本发明使用迭代近似优化策略来优化哈希码；将离散问题转化为一系列连续优化问题，可以有效缓解哈希码二值化过程中信息丢失和不稳定的问题。

5.根据权利要求1所述的多模态数据检索模型，其特征在于：所述步骤102中，目标及函数优化所提出的方法可以通过反向传播算法迭代更新整个网络的参数，直到网络收敛，整个CAGAN模型可以使用SGD和Adam优化算法进行优化。