CN115982403B

CN115982403B - 一种多模态哈希检索方法及装置

Info

Publication number: CN115982403B
Application number: CN202310085564.9A
Authority: CN
Inventors: 朱健; 陈�光; 曾令仿; 程永利; 张云云; 张莹; 崔钰; 吴洵进
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2024-02-02
Anticipated expiration: 2043-01-12
Also published as: CN115982403A

Abstract

本发明公开了一种多模态哈希检索方法及装置，该方法包括：获取带有标签的训练数据集；构建带有Transformer Encoder模块的多模态神经网络；根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；根据所述目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；获取多模态原始数据并对所述多模态原始数据进行特征工程加工；将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码；利用所述多模态哈希码，进行哈希检索。该方法使用Transformer网络实现多模态特征融合，与单模态哈希表示学***均准确率(mAP)更高。

Description

一种多模态哈希检索方法及装置

技术领域

本发明属于多模态哈希码生成技术领域，尤其涉及一种多模态哈希检索方法及装置。

背景技术

随着近年来移动互联网、云计算、大数据、多媒体、社交网络以及其他信息技术的迅速发展，文本、图像、视频、音频等多模态信息数据呈现出***式的增长。基于这些海量多媒体信息，人们对于多模态检索的需求显著增加，如何充分利用这些信息创造更大的价值是目前信息检索领域面临的主要挑战。所谓的多模态检索就是用户给定多种模态的数据作为检索条件，检索结果返回的是与检索条件相关的多种模态的数据，通俗的来讲就是以文搜图，以图搜文的等不同检索方式。多模态检索尤其是多模态哈希检索有着广泛的应用前景，包括物联网、短视频、电商以及本地生活的搜索领域等。

早期多模态检索主要依赖于手动标注的特征，从本质上来说还是单一模态检索，例如在百度搜索引擎搜索图片中输入文字检索相关图片时，其返回的结果虽然是图片，但这些检索结果都依照已经标注好的文本信息，与此同时还未进行文字标注的图片就不能被成功检索。除了检索的难题，数据***时代面临的另一个挑战就是如何有效地存储和管理这些规模庞大的多模态数据，只有做好存储和管理的相关工作，才能满足人们对检索速度和精度的要求。

近年来，多媒体数据也越来越多，多模态信息检索成为学者们研究的重点。N.Srivastava等人在2012年NIPS会议上提出了一个基于深度置信网络(Deep BeliefNetworks,DBN)的多模态深度学习算法来学习多模态数据之间的共享表示，从而实现多模态检索。该方法利用深度置信网络的降维与重构数据的特性，先针对不同的数据模态，训练出针对各个模态的不同的DBN，再在每个DBN的最后一层之上，加上一个隐层，利用受限玻尔兹曼机的特性来训练一个有双可视层的受限玻尔兹曼机(Restricted BoltzmannMachine,RBM)，最后将该隐层视为不同模态数据的共享表示。该方法深远影响，开启了多模态深度学习框架的先河。2018年Q.Jiang等人在TIP上提出了深度离散监督哈希(DDSH)方法，该方法结合深度哈希和离散哈希的特性：深度哈希是利用监督信息直接指导深度特征学习过程；离散哈希是利用监督信息指导哈希码的离散编码过程。DDSH利用成对的监督信息，直接指导深度特征学习过程和哈希码的离散编码过程，取得了很好的性能。

过去的研究中尽管取得很大的进展，但当前大部分多模态哈希检索仍然采用特征拼接、相加或者相乘的算法实现多模态的特征融合，比如DCMVH、FMH和FDCMH等多模态哈希算法。这些方法未能学***均准确率较低。

发明内容

针对现有技术的不足，本申请实施例的目的是提供一种多模态哈希检索方法及装置。

根据本申请实施例的第一方面，提供一种多模态哈希检索方法，包括：

获取带有标签的训练数据集，其中所述标签为图像类别；

构建带有Transformer Encoder模块的多模态神经网络；

根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；

根据所述目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；

获取多模态原始数据并对所述多模态原始数据进行特征工程加工；

将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码；

利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索。

进一步地，所述多模态神经网络包括：

特征主干网络模块，所述特征主干网络模块包括图像特征抽取模型和文本特征抽取模型，所述图像特征提取模型用于对多模态数据中的图像数据进行特征抽取，得到图像特征，所述文本特征抽取模型用于对所述多模态数据中的文本数据进行特征抽取，得到文本特征；

特征规范化模块，所述特征规范化模块用于对所述图像特征和文本特征进行规范化，以使得所述图像特征和文本特征的维度和阈值统一；

多模态融合模块，所述多模态融合模块用于对规范化后的图像特征和文本特征进行多模态的特征融合，生成多模态数据的全局表示特征；

哈希层输出模块，所述哈希层输出模块用于根据所述多模态数据的全局表示特征，生成多模态哈希码。

进一步地，在所述特征主干网络模块中，所述图像特征抽取模型为预训练视觉模型VGG-Net，输出为图像表征embedding向量，作为所述图像特征；所述文本特征抽取模型为预训练语言模型GPT，输出文本数据的序列输入的最后一个字符向量，作为所述文本特征。

进一步地，所述多模态融合模块包括融合预处理网络、Transformer Encoder网络和融合后处理网络，其中所述融合预处理网络用于将所述图像特征切分生成图像子序列特征，将所述文本特征切分生成文本子序列特征并组合所述图像子序列特征和文本子序列特征生成全局的多模态子序列；所述Transformer Encoder网络采用Self-Attention机制和FFN前馈神经网络，将所述全局的多模态子序列特征深度融合；所述融合后处理网络用于将所述Transformer Encoder网络输出的子序列拼接成一维向量。

进一步地，所述哈希层输出模块通过设置全连接层输出维度来和二值符号化来实现哈希码的生成。

进一步地，根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的标签，计算得到目标损失函数。

进一步地，

根据本申请实施例的第二方面，提供一种多模态哈希检索装置，包括：

获取模块，用于获取带有标签的训练数据集，其中所述标签为图像类别；

构建模块，用于构建带有Transformer Encoder模块的多模态神经网络；

设计模块，用于根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；

更新模块，用于根据所述目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；

加工模块，用于获取多模态原始数据并对所述多模态原始数据进行特征工程加工；

生成模块，用于将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码；

检索模块，用于利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的多模态哈希检索方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述的多模态哈希检索方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请创造性地使用Transformer网络实现多模态特征融合，与单模态哈希表示学***均准确率(mAP)更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种多模态哈希检索方法的流程图。

图2是根据一示例性实施例示出的多模态神经网络的架构图。

图3是根据一示例性实施例示出的步骤S17的示意图。

图4是根据一示例性实施例示出的一种多模态哈希检索装置的框图。

图5是根据一示例性实施例示出的电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种多模态哈希检索方法的流程图，如图1所示，该方法应用于终端中，可以包括以下步骤：

步骤S11：获取带有标签的训练数据集；

步骤S12：构建带有Transformer Encoder模块的多模态神经网络；

步骤S13：根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；

步骤S14：根据所述目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；

步骤S15：获取多模态原始数据并对所述多模态原始数据进行特征工程加工；

步骤S16：将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码；

步骤S17：利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索。

在步骤S11的具体实施中，获取带有标签的训练数据集；

具体地，使用带有标签label(图像类别，比如猫、狗)的数据集，我们可以采用有监督的深度机器学习算法模型训练哈希生成网络，相比无监督机器学习模型，哈希码的语义表达能力更强。

在一实施例中，采用图像-文本数据集MIRFlickr-25K、NUS-WIDE和MS COCO，采用深度学***均准确率的评估。

在一服饰鞋包导购的商品多模态检索任务中，商品的图片-文本多模态数据集采用淘宝服装搭配数据集(Taobao Fashion Collocation)。本实施例中选取了该数据集中商品的图片和文本数据。对于训练的数据集，我们随机抽取20,000个实例，其中10000个示例作为训练数据集。为了进行测试，我们使用其余10000个示例中的2000个实例作为测试集，其余的数据样本作为检索数据库，通过所述测试集和检索数据库，可以对本申请公开的多模态哈希检索方法进行测试和检索平均准确率的评估。

在步骤S12的具体实施中，构建带有Transformer Encoder模块的多模态神经网络；

具体地，如图2所示，所述多模态深度神经网络可以包括：

(1)特征主干网络模块，所述特征主干网络模块包括图像特征抽取模型和文本特征抽取模型，所述图像特征提取模型用于对多模态数据中的图像数据进行特征抽取，得到图像特征，所述文本特征抽取模型用于对所述多模态数据中的文本数据进行特征抽取，得到文本特征；

具体地，在所述特征主干网络模块中，所述图像特征抽取模型为预训练视觉模型VGG-Net，输出为图像表征embedding向量，作为所述图像特征；所述文本特征抽取模型为预训练语言模型GPT，输出文本数据的序列输入的最后一个字符向量，作为所述文本特征。具体的原始数据为图片和文本，采用预训练模型VGG-net网络的多层深度CNN网络可以把原始图片处理层Tensor向量。采用GPT预训练语言模型，多层Transformer Decoder网络机制可以把原始的文本处理成Embedding向量。这样使用先进的预训练的神经网络可以使抽取的特征表达的语义能力更强。

(2)特征规范化模块，所述特征规范化模块用于对所述图像特征和文本特征进行规范化，以使得所述图像特征和文本特征的维度和阈值统一；

具体地，一是特征输出层采用Tanh激活函数，使网络输出限制在[-1,1]范围内。二是输出层维度相同，比如图像和文本输出网络设置为768维。

(3)多模态融合模块，所述多模态融合模块用于对规范化后的图像特征和文本特征进行多模态的特征融合，生成多模态数据的全局表示特征；

具体地，所述多模态融合模块用于实现多模态特征融合，包括融合预处理网络、Transformer Encoder网络和融合后处理网络，其中所述融合预处理网络用于将所述图像特征切分生成图像子序列特征，将所述文本特征切分生成文本子序列特征并组合所述图像子序列特征和文本子序列特征生成全局的多模态子序列，例如，对于均为100维向量的文本特征和图像特征，将其分别切分为5个20维特征，即可得到图像子序列特征和文本子序列特征。

所述Transformer Encoder网络采用Self-Attention机制和FFN前馈神经网络，将所述全局的多模态子序列特征深度融合，所述融合后处理网络(即图2中的联接层)用于将所述Transformer Encoder网络输出的子序列拼接成一维向量。在一实施例中，Transformer Encoder由多头注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed Forward Neural Network)组成，采用Multi-Head Attention机制将各个单模态特征融合成一个全局的特征，采用Self-Attention网络机制学习多模态特征之间的交互和互补关系，融合生成全局表达特征。这样最后生成的哈希码更具语义化。

(4)哈希层输出模块，所述哈希层输出模块用于根据所述多模态数据的全局表示特征，生成多模态哈希码；

具体地，所述哈希层输出模块通过设置全连接层输出维度来和二值符号化来实现哈希码的生成。

x＝w*x_fusion+b

F(x)＝Tanh(x)

Hashcode＝Sign[F(x)]

其中，x_fusion为联接层的输出(即多模态数据的全局表示特征)，w和b为神经网络训练的参数，为本领域技术人员公知，此处不作赘述。F(x)为哈希层网络输出，激活函数可以采用Tanh，输出值为[-1,1]连续区间。输出维度和哈希码位数保持一致。Sign是二值符号化函数，当F(x)>＝0，输出为1；当F(x)<0，输出为-1，用于将哈希层网络输出二值化，从而得到哈希码。

在步骤S13的具体实施中，根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；

具体地，可以采用pointwise、pairwise、triplewise和listwise的损失函数形式。在一实施例中，采用pointwise损失函数形式，交叉熵损失函数，其中y为label类别标签，y′为预测值(即样本经过所述多模态神经网络生成的哈希码)，则设计的目标损失函数如下：

BCELOSS(y,y′)＝-ylogy′-(1-y)log(1-y′)

在步骤S14的具体实施中，根据所述设计的目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；

具体地，我们采用交叉熵损失函数，以多模态神经网络输出和样本标签类别计算模型损失函数，并使用Adam自适应优化器更新多模态神经网络参数。

在步骤S15的具体实施中，获取多模态原始数据并对所述多模态原始数据进行特征工程加工；

具体地，原始数据为图片和文本，采用VGG-net网络的深度CNN网络可以把原始图片处理层Tensor向量。采用GPT预训练语言模型可以把原始的文本处理成Embedding向量。这样使用预训练的神经网络可以使抽取的特征表达的语义能力更强。

在步骤S16的具体实施中，将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码。

具体地，使用多模态融合模块中Transformer Encoder网络实现多模态特征融合，学***均准确率(mAP)更高。

在步骤S17的具体实施中，利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索；

参照图3，该步骤可以包括：将所述多模态哈希码与多模态哈希码检索数据库中的所有哈希码计算汉明距离；

将所述汉明距离从小到大进行排序，将所述汉明距离最小的K个哈希码对应的多模态数据样本作为这个哈希码的检索结果；

其中所述多模态哈希码检索数据库包括利用预先选中的多模态数据样本生成的二值化的哈希码。

具体地，首先需要离线生成多模态哈希码检索数据库，主要是训练后的多模态神经网络将离线MS COCO中随机选取3000个样本生成二值化的哈希码，并将这些哈希码存储到数据库中。再进行在线哈希码查询，主要是训练后的多模态神经网络将单个离线多模态样本生成二值化的哈希码，并将这个哈希码和离线生成的多模态哈希码检索数据库中的所有的哈希码计算汉明距离，并将汉明距离从小到大进行排序，返回TopK个最相似的图片id集合作为这个哈希码的检索结果。比如在检索***里输入一个狗的图片和“黄色、卷毛”的文本描述，然后通过多模态神经网络生成8bits哈希码(10001010)，和离线多模态哈希码检索数据库中的所有的哈希码计算汉明距离。并将汉明距离从小到大进行排序，返回TopK个最相似的黄色、卷毛狗id集合作为这个哈希码的检索结果。

在本实施例中，首先离线生成多模态哈希码检索数据库，即通过训练后的多模态神经网络将离线淘宝服装搭配数据集(Taobao Fashion Collocation)中随机选取8000个样本生成二值化的哈希码，并将这些哈希码存储到数据库中。再进行在线哈希码查询，即利用训练后的多模态神经网络将单个离线多模态样本(比如一实施例中为一个男士羽绒服的图片和“韩系、黑色”的文本描述)生成二值化的哈希码(11001110)，并将这个哈希码和离线生成的多模态哈希码检索数据库中的所有的哈希码计算汉明距离，并将汉明距离从小到大进行排序，返回TopK个最相似的男士羽绒服商品id集合作为这个哈希码的检索结果。在本实施例中实际测试2000个电商商品ID，在TopK＝500的情况下，本方法平均检索mAP准确率92.6％。

与前述的多模态哈希检索方法的实施例相对应，本申请还提供了多模态哈希检索装置的实施例。

图4是根据一示例性实施例示出的一种多模态哈希检索装置框图。参照图4，该装置可以包括：

获取模块21，用于获取带有标签的训练数据集，其中所述标签为图像类别；

构建模块22，用于构建带有Transformer Encoder模块的多模态神经网络；

设计模块23，用于根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签，设计目标损失函数；

更新模块24，用于根据所述目标损失函数，采用梯度下降法更新所述多模态神经网络的参数，以训练所述多模态神经网络；

加工模块25，用于获取多模态原始数据并对所述多模态原始数据进行特征工程加工；

生成模块26，用于将加工后的多模态原始数据输入训练后的多模态神经网络中，生成多模态哈希码；

检索模块27，用于利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的多模态哈希检索方法。如图5所示，为本发明实施例提供的一种多模态哈希检索方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的多模态哈希检索方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种多模态哈希检索方法，其特征在于，包括：

获取带有标签的训练数据集，其中所述标签为图像类别；

构建带有Transformer Encoder模块的多模态神经网络；

利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索；

其中，所述多模态神经网络包括：

哈希层输出模块，所述哈希层输出模块用于根据所述多模态数据的全局表示特征，生成多模态哈希码；

其中，所述多模态融合模块包括融合预处理网络、Transformer Encoder网络和融合后处理网络，其中所述融合预处理网络用于将所述图像特征切分生成图像子序列特征，将所述文本特征切分生成文本子序列特征并组合所述图像子序列特征和文本子序列特征生成全局的多模态子序列；所述Transformer Encoder网络采用Self-Attention机制和FFN前馈神经网络，将所述全局的多模态子序列特征深度融合，其中采用Multi-Head Attention机制将各个单模态特征融合成一个全局的特征，采用Self-Attention网络机制学习多模态特征之间的交互和互补关系，融合生成全局表达特征；所述融合后处理网络用于将所述Transformer Encoder网络输出的子序列拼接成一维向量。

2.根据权利要求1所述的方法，其特征在于，在所述特征主干网络模块中，所述图像特征抽取模型为预训练视觉模型VGG-Net，输出为图像表征embedding向量，作为所述图像特征；所述文本特征抽取模型为预训练语言模型GPT，输出文本数据的序列输入的最后一个字符向量，作为所述文本特征。

3.根据权利要求1所述的方法，其特征在于，所述哈希层输出模块通过设置全连接层输出维度来和二值符号化来实现哈希码的生成。

4.根据权利要求1所述的方法，其特征在于，根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的标签，计算得到目标损失函数。

5.根据权利要求1所述的方法，其特征在于，利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索，包括：

将所述多模态哈希码与多模态哈希码检索数据库中的所有哈希码计算汉明距离；

6.一种多模态哈希检索装置，其特征在于，包括：

检索模块，用于利用所述多模态哈希码，进行针对所述多模态原始数据的哈希检索；

其中，所述多模态神经网络包括：

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一项所述的多模态哈希检索方法。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-5中任一项所述的多模态哈希检索方法的步骤。