CN111639240A

CN111639240A - 一种基于注意力感知机制的跨模态哈希检索方法及***

Info

Publication number: CN111639240A
Application number: CN202010408302.8A
Authority: CN
Inventors: 罗昕; 姚洪磊; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-08
Anticipated expiration: 2040-05-14
Also published as: CN111639240B

Abstract

本发明公开了一种基于注意力感知机制的跨模态哈希检索方法及***，包括：对跨模态数据集中的训练集进行特征提取和注意力特征提取，得到经注意力特征加权的跨模态特征；将跨模态数据对的跨模态特征输入至哈希学习模型中，根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型；根据由优化后的哈希学习模型得到的待测数据的哈希码，在与待测数据模态不同的模态数据的哈希码中，筛选满足检索要求的模态数据。将注意力机制应用于跨模态哈希检索任务中，提出注意力感知机制的新型注意力方法，实现对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强，提高哈希码的生成质量。

Description

一种基于注意力感知机制的跨模态哈希检索方法及***

技术领域

本发明涉及跨模态哈希检索技术领域，特别是涉及一种基于注意力感知机制的跨模态哈希检索方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着网络多媒体数据的爆发式增长，需要采用现有图像检索与其相关的文本或视频，或者基于文本检索图像或视频，即使用一种模态的数据检索另一种模态的相似样本，与此同时数据的高效存储和快速查询也成为一个难题，基于此，近年来有学者提出使用哈希学习的方式来解决这一难题，因为哈希学习方法能够将原始的高维样本数据使用简单紧凑的二进制哈希码来表示，由此可以极大的压缩数据规模，便于数据保存和互相检索。

跨模态检索技术旨在根据已有的数据检索与之相匹配的不同模态的数据，如通过文本信息在数据库中查找符合文字描述的图片集。现有技术按照是否结合深度学习技术可以分为深度模型和非深度模型，传统的深度跨模态哈希检索模型通常分为三个步骤，首先使用深度网络提取不同模态的特征，然后根据提取到的特征使用全连接网络在交叉熵损失以及样本相似度矩阵的监督下学习哈希函数，最后通过哈希函数将样本转成哈希码保存在数据库中。

现阶段已有很多跨模态哈希检索方法被提出，但是，发明人发现现有技术至少存在以下问题：对于检索任务来说，真实数据往往会存在一些噪声和冗余，而在特征提取时，需要提取最有用的视觉信息，而忽略背景信息，因为背景信息会对检索造成干扰；但是在实际数据中，有价值类别的信息仅覆盖一小部分，大多数区域为背景，而当前的大多数跨模态检索方法会忽略这一问题，直接从原始数据中学习特征，因此可能会被无效或冗余信息所误导，以致生成低质量的哈希码；此外，很多效果较好的深度跨模态哈希检索模型为了提升检索效果，往往会引入参数量较多效果更好的网络模型，如GAN(生成对抗网络)等，但是会大幅度增加训练和检索时间。

发明内容

为了解决上述问题，本发明提出了一种基于注意力感知机制的跨模态哈希检索方法及***，将注意力机制应用于跨模态哈希检索任务中，提出注意力感知机制的新型注意力方法，包含多种模态数据的跨模态数据集实现同时进行特征学习和哈希编码学习，最后将经注意力加权的特征表示反馈到哈希学习模型中用以指导哈希码的生成，实现对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强，提高哈希码的生成质量。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于注意力感知机制的跨模态哈希检索方法，包括：

对跨模态数据集中的训练集进行特征提取和注意力特征提取，得到经注意力特征加权的跨模态特征；

将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中，根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型；

根据由优化后的哈希学习模型得到的待测数据的哈希码，在跨模态数据集中与待测数据模态不同的模态数据的哈希码中，筛选满足检索要求的模态数据。

第二方面，本发明提供一种基于注意力感知机制的跨模态哈希检索***，包括：

特征提取模块，用于对跨模态数据集中的训练集进行特征提取和注意力特征提取，得到经注意力特征加权的跨模态特征；

哈希学习模块，用于将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中，根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型；

检索模块，用于根据由优化后的哈希学习模型得到的待测数据的哈希码，在跨模态数据集中与待测数据模态不同的模态数据的哈希码中，筛选满足检索要求的模态数据。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明中跨模态数据集中包含多种模态数据，且多种模态数据实现同时进行特征学习和哈希编码学习，提高哈希码生成的效率。

本发明提出注意力感知机制的新型注意力方法，将注意力机制应用于跨模态哈希检索任务中，两个不同的模态加权，不仅可以突出跨模态数据的关键部分，如图片中物体存在的区域或文本输入中的某个单词，同时还可以抑制冗余或无效部分对检索效果的影响，如图片背景或文本干扰词等，有效地提高哈希码生成的质量，并且能适用于各种多模态数据场景下的跨模态检索任务

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1(a)-(b)为图片模态数据；

图1(c)为公共数据集MIRFlicker-25K中文本标注词频排名前10位的单词；

图1(d)为图1(a)的文本标注数据；

图2为本发明实施例1提供的基于注意力感知机制的跨模态哈希检索方法流程图；

图3为本发明实施例1提供的图像注意力特征提取流程图；

图4为本发明实施例1提供的文本注意力特征提取流程图；

图5为本发明实施例1提供的基于注意力感知机制的跨模态哈希检索***结构图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

目前已有多种跨模态哈希检索方法被提出，但是由于真实数据存在噪声和冗余，而目前的检索方法直接从原始数据中学习特征，会被无效或冗余信息所误导，以致生成低质量的哈希码。以图片和文本两个模态为例，如图1(a)-1(b)所示，对于图1(a)的图片，需要突出蜜蜂和花朵所在区域而忽略后面的背景部分，因为会对检索造成干扰；同样地，对于图1(b)的图片，标签即监督信息为“动物”、“花朵”和“植物生命”，最有用的视觉信息可能是在花朵上悬停的蝴蝶。但是，这些有价值类别的信息仅覆盖整个图像的一小部分，而该图像中的大多数区域是背景；

如图1(c)所示包含了公共数据集MIRFlicker-25K中，文本标注词频排名前10位的单词，可以看到有一半的单词：“explore”，“canon”，“bw”，“nikon”和“2007”都是与图像内容没有直接关系的无效单词；图1(d)则是对图1(a)的文本标注，只有单词“bees”是与检索任务相关的。

由此可以看出，如果不对原始数据中噪声和冗余进行抑制处理，容易导致生成低质量的哈希码，影响检索结果。

Attention机制近年来在计算机视觉领域得到广泛应用，例如对自然语言处理、物体检测、图像识别以及语音识别等方面，但在跨模态检索方向却鲜有人使用。传统的Attention机制用在图像识别上，能够自发寻找图片中需要重点关注的部分，即通过学习生成一个和图片表示(这个图片表示可以是原始图片，也可以是feature map等)大小相同的Mask；对于关注区域，Mask对应位置具有较高的激活值。根据作用区域，Attention模型通常可以分为空间注意力模型和通道注意力模型；空间注意力模型针对feature map中的不同位置生成对应的注意力值，还原到原始图片中就是图片中不同的位置对于任务具有不同程度的影响；通道注意力机制针对feature map中的不同channel生成对应的注意力值，更具有抽象性。

本实施例融合了空间注意力机制，将注意力机制应用于跨模态哈希检索任务中，在传统的注意力机制的基础上提出一种新的注意力方法，称为注意力感知机制，用于两个不同的模态加权；

即本实施例中的基于注意力感知机制的跨模态哈希检索方法，对原始数据中的噪声和冗余进行抑制处理同时对重点关注区域进行增强，进而提取注意力矩阵，对于生成哈希码的质量有较好的提升效果，可用于各种多模态数据场景下的跨模态信息检索，如图2所示，具体包括以下步骤：

S1：对跨模态数据集中的训练集进行特征提取和注意力特征提取，得到经注意力特征加权的跨模态特征；

S2：将训练集中跨模态数据对的跨模态特征输入至哈希学习模型中，根据输出的跨模态哈希码以最小化损失函数为目标优化哈希学习模型；

S3：根据由优化后的哈希学习模型得到的待测数据的哈希码，在跨模态数据集中与待测数据模态不同的模态数据的哈希码中，筛选满足检索要求的模态数据。

所述步骤S1中，跨模态数据集包括多种模态数据，在本实施例中，以图像模态数据和文本模态数据为例，可以理解的，该模态类型可以扩展其他模态，如视频、语音等。

将跨模态数据集划分为训练集和测试集，对训练集中的图像和文本的跨模态数据对采用两个并列的卷积神经网络同时进行特征提取和注意力特征提取；具体为：获取初始注意力矩阵，以最小化损失函数对卷积神经网络进行训练，输出改进后的注意力矩阵；将注意力矩阵与卷积神经网络输出的特征矩阵进行点乘操作，得到经注意力特征加权的跨模态特征。

其中，对训练集中的图像进行图像特征提取和图像注意力特征提取，具体包括：

S1-1：图像特征提取过程采用卷积神经网络CNN_F作为基础的网络结构，在第五个卷积层Conv5输出图像特征矩阵；

S1-2：图像注意力特征提取过程包括：(1)在第五个卷积层和全连接层之间引入一个attention层，改进了残差网络Resnet-50，如图3所示，采用新的卷积层Conv6和最大池化层Max pooling替换全连接层，引入Conv6层的目的是确保最终注意力图的大小与图像特征提取过程中Conv5层输出的图像特征矩阵大小一致；使用改进的Resnet-50网络提取初始注意力矩阵O，并使用交叉熵函数作为损失函数来对该网络进行预训练。

(2)对初始注意力矩阵进一步改进：

O′_ir＝sigmoid(max_k(O_ijk))，

其中，O′_ir是图片I_i的第r个区域对应的注意力权重，O_ijk是预训练网络输出O中同样位置第k个类别(共有Nc个类别)的数值。

其中，

是最终获得的注意力矩阵，μ_i是可计算的阈值，具体计算方式如下：

将该图片不同区域的注意力值进行升序排序，并假设一张图片中大约有p％(0<p<100)的区域属于冗余区，同时剩下的部分(约占1-p％)是重点区域；那么μ_i的值设为O′_i排序后的第

个激活值，其中Nr＝n×n表示区域数量。

(3)将

在通道层面上进行延展，得到新的权重矩阵

然后和Conv5层输出的图像特征矩阵做点乘操作，得到经图像注意力特征加权的图像特征。

对训练集中的图像进行文本特征提取和文本注意力特征提取，具体包括：

S1-3：文本特征提取过程中采用两个全连接层获取文本特征；

S1-4：文本注意力特征提取过程包括：(1)在第一全连接层Fc1前引入attention层，采用不含隐藏层的神经网络，即一个两层的非线性分类网络，得到输入文本表示的每一个标注和其对应分类之间的映射关系W，如图4所示，并使用W作为初始注意力矩阵，使用最小平方误差损失指导该分类网络的训练。

(2)对初始注意力矩阵进一步改进：

使用SoftMax函数标准化W_ij，并假设文本y_i对于不同类别的贡献度服从分布F_i(·)，

F_i(l_j)＝W′_ij，

其中，l_j是第j个样本对应的标签信息，

求解每个标注对应的信息熵：

W″_i＝-E_i，

求解最终的注意力矩阵

其中，v是可计算的阈值，具体计算方式为：

将注意力矩阵W″_i进行升序排列，把v设置为第

个位置对应的值，其中Nt表示文本标注集合中不同标签的数量。

(3)将原始文本特征与文本注意图

相乘得到经文本注意力特征加权的文本特征；其中，原始文本特征使用BoW表示，也可以是其他形式如Word2Vec。

所述步骤S2中，将图像特征和文本特征输入至哈希学习网络模型中，采用sign函数得到二值化哈希码，以最小化损失函数为目标构建全局目标函数：

其中，n为样本集中样本数量，B^x是图片模态对应的二值哈希码，B^y是文本模态对应的二值哈希码，设置B＝B^x＝B^y＝sign(γ(F+G))，W_x、W_y是图片模态数据和文本模态数据对应的初始注意力矩阵，F_*＝f^x(x_i,θ^x),θ^x是图像网络参数，F是图像网络的输出；G_*＝f^y(y_i,θ^y),θ^y是文本网络参数，G是文本网络的输出；令

γ和η均为超参数；相似度矩阵S为：对于两个不同的样本i，j，若两个样本标签至少有一个类都存在，那么将S_ij设置为1，否则置为0。

在本实施例中，全局目标函数第一项为负对数似然损失函数，第二项为量化损失函数，由于样本之间的相似性关系是通过标签信息L得到的，因此为了更加充分的利用样本监督信息，本实施例提出第三项损失，即语义保持损失函数。

所述步骤S2中，以最小化损失函数为目标优化哈希学习模型，需要优化的变量分别为B,F,G,W_x,W_y，本实施例采用迭代优化的方式最小化损失函数，即每次只优化一个变量，其他变量保持不变。具体的优化策略如下：

S2-1：固定变量B,G,W_x,W_y，更新变量F：

对于样本点x_i，使用随机梯度下降法优化F_*，即：

采用链式法则计算

即

经反向传播更新图像网络的参数θ^x。

S2-2：固定变量B,F,G,W_y，更新变量W_x：

使用随机梯度下降法更新该变量，

S2-3：固定变量B,F,W_x,W_y，更新变量G：

和更新变量F的过程类似，对于样本点y_j，首先计算变量G的梯度，即：

使用链式法则计算

并更新参数θ^y。

S2-4：固定变量B,F,G,W_x，更新变量W_y，即：

S2-5：固定变量F,G,W_x,W_y，更新变量B，即：

其中，V＝γ(F+G)。

所述步骤S3中，对哈希学习模型完成优化后，根据优化后的哈希学习模型，对跨模态数据集中所有样本计算得到对应的哈希码；

在进行检索任务时，将得到数据输入至模型中得到对应的哈希码，在跨模态数据集中与待测数据模态不同的模态数据的哈希码中，检索汉明距离最近的N个哈希码，筛选出满足该检索要求的跨模态数据。

实施例2

如图5所示，本实施例提供一种基于注意力感知机制的跨模态哈希检索***，包括：

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S3，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在本实施例中，特征提取模块中接收图片和文本，图像数据和文本数据同时进行特征学习和哈希编码学习，在图像特征提取网络中包括图像注意力特征提取模块，在文本特征提取网络中包括文本注意力特征提取模块，最后将经过注意力加权的特征输入到哈希学习模块中用以指导哈希码的生成，提高哈希码生成的质量，适用于各种多模态数据场景下的跨模态检索任务。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，包括：

2.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，所述跨模态数据集包含多种模态数据，所述训练集包含多个跨模态数据对，所述跨模态数据对采用两个并列的卷积神经网络同时进行特征提取和注意力特征提取。

3.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，所述注意力特征提取包括：

获取初始注意力特征矩阵，以最小化损失函数对卷积神经网络进行训练，输出改进后的注意力特征矩阵；

将注意力特征矩阵与卷积神经网络输出的特征矩阵进行点乘操作，得到经注意力特征加权的跨模态特征。

4.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，根据输出的跨模态哈希码以最小化损失函数为目标构建全局目标函数，所述全局目标函数包括负对数似然损失函数、量化损失函数和语义保持损失函数。

5.如权利要求4所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，所述全局目标函数为：

其中，n为样本集中样本数量，B^x、B^y是跨模态数据对中x模态数据和y模态数据对应的哈希码，θ^x、θ^y是x模态数据和y模态数据对应网络的网络参数，W_x、W_y是x模态数据和y模态数据对应的初始注意力矩阵，S_ij是相似度矩阵，γ和η均为超参数；F、G是x模态数据和y模态数据对应网络的输出，L是标签信息。

6.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，采用迭代优化方法对哈希学习模型进行优化，优化的变量包括跨模态数据对的哈希码、跨模态数据对对应网络的输出以及初始注意力矩阵。

7.如权利要求1所述的一种基于注意力感知机制的跨模态哈希检索方法，其特征在于，在跨模态数据集中与待测数据模态不同的模态数据的哈希码中，比较上述哈希码与待测数据哈希码的汉明距离，检索汉明距离最近的N个哈希码，筛选出满足该检索要求的跨模态数据。

8.一种基于注意力感知机制的跨模态哈希检索***，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。