CN110309331B

CN110309331B - 一种基于自监督的跨模态深度哈希检索方法

Info

Publication number: CN110309331B
Application number: CN201910599265.0A
Authority: CN
Inventors: 王轩; 漆舒汉; 李逸凡; 蒋琳; 廖清; 刘洋; 夏文; 李化乐; 吴宇琳; 贾丰玮
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-07-27
Anticipated expiration: 2039-07-04
Also published as: CN110309331A

Abstract

本发明专利涉及一种基于自监督的跨模态联合哈希检索方法，该方法包括以下步骤：步骤1：针对图像模态数据进行处理：采用深度卷积神经网络对图像模态的数据进行特征提取，对图片数据进行哈希学习，将深度卷积神经网络的最后一层全连接层的节点个数设置为哈希码的长度；步骤2：针对文本模态数据进行处理：使用词袋模型对文本数据进行建模，建立一个两层的全连接神经网络对文本模态的数据进行特征提取，神经网络的输入是使用词袋模型表示的词向量，第一个全连接层节点的数据与第二个全连接层节点的数据与哈希码的长度相同；步骤3：针对类别标签处理的神经网络：采用自监督的训练方式从标签数据中提取语义特征；步骤4：最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离，使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征。

Description

一种基于自监督的跨模态深度哈希检索方法

技术领域

本发明属于一种跨模态深度哈希检索技术领域，特别涉及一种基于自监督的跨模态深度哈希检索方法。

背景技术

人工智能技术自诞生以来经历了多次的爆发期与寒冬期，而这次人工智能技术的爆发更加来势汹汹，因为与之前几次的爆发相比，具有一个鲜明的特点——以大数据为基础。大数据不仅仅是因其数据量大，更重要的是其数据种类具有多样性，且数据的价值密度较低。我们每天都会产生和接收各种信息，而这些信息都会被记录下来，然后通过各种人工智能技术来分析我们的日常行为、生活习性，以便为我们的生活提供各种便利性的服务。在海量的多媒体数据之中，有些数据并不是相互独立的，它们很可能是对同一事物的不同表现方式的描述，在语义上具有一定的相似性。如何从这些不同类型的数据中检索到所需的数据是一个充满挑战的问题，也逐渐得到了学术界的广泛关注，这就是跨模态检索。

跨模态检索的适用范围比单模态检索要广，其以任一种模态的数据作为被查询的示例，从海量的多媒体数据库中查询与之具有语义相关性的其他模态的数据。跨模态检索本质是跨越多种模态信息间描述方式上的鸿沟，通过子空间学习，将它们映射到同一维度空间上进行度量，以此把语义表达上具有相似性的不同模态间的数据联系起来，达到可以只用一种模态的数据就检索出其他模态数据的目的。

目前基于哈希的跨模态检索方法通常关注于如何对不同模态的数据(例如图像和文本)进行特征提取，再将不同模态的数据特征映射到一个共同的子空间中，再通过一定的度量手方法(例如汉明距离)来形式化表示各种数据间的相似性。但这些方法都忽略了最重要的标签数据的语义价值，仅仅使用标签数据生成相似性矩阵，没有充分利用标签数据描述更细粒度的标签信息，更准确的描述所属的类别数据。同时，因为现有的数据集中存在数据不平衡问题，即不同模态中相似的数据量远小于不相似的数据量，而现有的方法没有对数据不平衡问题进行处理，容易导致训练不充分甚至过拟合的情况。同时，因为需要生成哈希码来表示各种模态的数据，现有的方法大都在神经网络的最后一层添加sigmoid函数将其输出压缩到0和1之间，再通过符号函数生成离散的二值码，但sigmoid函数本身在反向传播时极易导致神经网络出现梯度消失的状况，而且直接将神经网络的输出数值压缩到0和1之间后，无论是对图像还是文本数据都会造成一定的信息损失。

针对上述问题，本发明首先设计了一种自监督的跨模态哈希方法，能针对类别标签数据进行特征提取，使模型能够对数据的语义相关性进行建模，帮助图像与文本数据的特征分布趋于一致，让模型更准确地学***衡问题，设计了自适应权重的损失函数，能够根据每次输入神经网络的训练样本中正负样本的比例，自动调整对正负样本的惩罚的权重；最后使用一个设计好的二值约束项直接对网络的输出进行二值化处理，替换掉sigmoid函数，避免训练过程中的梯度消失状况。

发明内容

为克服已有技术的不足之处，本发明提出基于自监督的跨模态深度希哈检索方法，以避免训练过程中的梯度消失状况。

为达到此目的，本发明采用以下技术方案：

一种基于自监督的跨模态联合哈希检索方法，该方法包括以下步骤：

步骤1：针对图像模态数据进行处理：采用深度卷积神经网络对图像模态的数据进行特征提取，对图片数据进行哈希学习，将深度卷积神经网络的最后一层全连接层的节点个数设置为哈希码的长度；

步骤2：针对文本模态数据进行处理：使用词袋模型对文本数据进行建模，建立一个两层的全连接神经网络对文本模态的数据进行特征提取，神经网络的输入是使用词袋模型表示的词向量，第一个全连接层节点的数据与第二个全连接层节点的数据与哈希码的长度相同；

步骤3：针对类别标签处理的神经网络：采用自监督的训练方式从标签数据中提取语义特征；

步骤4：最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离，使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征。

相比于现有的技术，本发明的优点有：

本发明所设计的方法与传统的算法CCA、CMFH等方法相比，卷积神经网络用于提取图像的特征，并且由学习的散列模型生成的散列码可以保留图像的语义信息。因此使用这些哈希码进行检索的效果要远远高于传统的哈希算法。与STMH、SCM等基于神经网络的哈希算法相比，由于本算法采用端到端的网络结构，能够自动的提取各种模态数据的特种，不再依赖于手工设计的特征，可以更好的发挥深度神经网络的作用。同时，与DCMH等深度哈希算法相比，本算法针对现存深度哈希网络存在的问题和不足，提出了多种改进方法，因此该方法的检索性能优于其他基于深度学习的哈希算法。

附图说明

图1是本发明的基于跨模态联合的哈希检索网络框架；

图2是本发明的二值约束函数图像。

具体实施方式

本发明提出了一种基于自监督的跨模态深度希哈检索方法。下面将结合附图，对本发明的具体实施例进行详细的描述。

该跨模态的深度哈希检索方法使用自监督的方式构造一个独立的类别标签处理网络来学***衡问题，提出自适应权重的损失函数，根据每次输入网络的样本中相关与不相关的样本间的比例自动调整权重，使得模型训练更充分，不至于偏向一种数据而出现过拟合情况。还采用设计好的二值约束项对神经网络输出的连续值进行离散处理，避免采用sigmoid方法带来的信息损失。

以图像和文本两种模态的数据为例，本发明可以有效减少数据的存储空间，节省***的通信开销，在大数据背景下效果尤其明显；同时，因为使用了哈希码来表示图像与文本数据，可以通过计算机硬件来执行异或运算，快速计算两个数据间的汉明距离，达到输入一张图片(一段文本)就可以迅速检索出在内容上与之相关的文本(图片)的目的。

假设有n个样本的数据集{X,Y,L}，其中

代表了训练样本中的图片模态的数据，x_i是图片i的特征表示；

代表了训练样本中的文字模态的数据，y_i是文本i的特征表示；

代表了每条数据所对应的类别标签，当该数据属于此类别标签时，l_i＝1，反之，l_i＝0；同时，用S表示相似性矩阵，代表两个模态的样本是否相似，其定义如下：

根据上述定义，该方法的目的是要学习到两个分别对应两种模态的哈希函数：对于图片模态的哈希函数h^(x)(x)∈{-1,+1}^k,对于文本模态的哈希函数h^(y)(y)∈{-1,+1}^k，其中的k代表了二进制码的长度。这两个哈希函数应该具有跨模态信息的语义相似性，也就是说，如果S_ij＝1，那么二进制码

和

的汉明距离应该很小；如果S_ij＝0，那么对应的二进制码的汉明距离应该很大。

在训练阶段，所使用的每一条样本都包含图像模态与文本模态的信息，即每条样本都应是一条图片-文本数据对。训练完成后，获得两个最终散列函数，以便更好地应用跨模态检索技术，需要构造一个可供查询的数据库，此时，不必要求图片与文本必须成对出现，可以使用只拥有一种模态的数据来构造查询数据库，而不必要求所有数据都同时具有两种模态。

监督学习不同于传统的有监督学习与无监督学习，其主要思想是使用样本自身所能提供的信息来指导模型的学习。以计算机视觉方向为例，大部分任务如目标检测、图像分割等都依赖于一个庞大且具有很好的标注的数据集，如ImageNet和MS COCO，然后再根据具体情况设置损失函数并构建神经网络，就可以通过反向传播的方式进行训练。所以，影响一个机器学习算法性能的可能并不是算法本身，一个更好的数据集往往能够大幅提升算法的结果。然而，在其他众多机器学习任务中，有标签的数据毕竟是少量的，这就导致了不少研究人员通过手工标注数据的方式收集数据集，但标注数据集毕竟是一个耗费劳动力的工作，即便是通过外包的方式来获取有标注数据，但数据的标注质量却无法保证，毕竟数据本身更是直接影响算法的性能。

在大多数情况下，人工标注的数据都是文本信息形式的语义标签，以不同的视觉任务为例可以分为不同的类型：用于判断物体分类时的单个标签、用于描述图像的一组标签以及用于描述场景信息的一段文本。标签数据通常具有丰富的语义信息，可以用来描述与该标签相关的事物间的关联性，例如属于同一类的两个物体显然具有语义上相同的特征。而自监督学习正是利用这一点，仅需少量甚至不需要标注数据，从已有数据中提取出更细粒度的语义特征，再使用语义特征指导各种任务的训练，从而达到有监督学习以及无监督学习都不能达到的效果。

所以，本发明设计了一个自监督的跨模态联合哈希方法，首先针对图像、文本数据分别使用一个神经网络对其进行哈希学习，同时设计一个单独的神经网络对标签数据进行语义特征的提取，使其能够对不同模态间的数据的语义相关性进行建模，使得在语义特征的监督下，图像与文本数据的特征分布能够趋于一致，帮助不同模态的哈希学习模型能够更精准地学习到相似模态数据间的相似性。同时，因为传统方法仅关注于不同模态数据间的差异，而没有把考虑相同模态内部数据也存在相似与否的情况，也会对整体算法的见检索效果产生影响。本算法的整体网络结构如图1所示。

(1)图像模态数据处理网络

由于近年来深度神经网络在图像特征提取方面的大获成功，而特征提取部分并不是本发明所关注的重点，所以该发明也采用最经典的深度卷积神经网络对图像模态的数据进行特征提取，其网络结构如表1所示。因为是要对图片数据进行哈希学习，希望神经网络的最后输出与所需哈希码的长度相同，所以将神经网络的最后一层全连接层的节点个数设置为哈希码的长度。

表1图像处理神经网络结构

其中，第一个卷积层的卷积核大小为11x11，步长为4，不对边缘像素补边，同时采用局部相应归一化和最大池化操作；第二个卷积层的卷积核大小为5x5，步长为1，对边缘补2个像素，也进行局部相应归一化和最大池化操作；第三个卷积层与第四个卷积层的设计相同，卷积核大小均为3x3，步长为1，对边缘补1个像素；第五个卷积层的卷积和大小为3x3，步长为1，对边缘补1个像素，同时进行最大池化操作；第一个全连接层与第二个全连接层的设置相同，均为4096个节点的全连接层，同时进行Dropout操作，防止过拟合；最后一个全连接层则使用k个节点，确保神经网络的输出与哈希码长度相同。

虽然本发明主要研究跨模态检索问题，但考虑到同模态内部的数据具有相似性，依然可能产生损失，故设计图像间损失如下：

其中D(·)表示对两个哈希码距离的度量，该损失函数的第一项是为了惩罚相似的图片被映射到不相似的二值哈希码的情况，第二项是为了惩罚不相似的图片被映射到相似的二值哈希码的情况，其中m为阈值，表示不相似的两张图片的哈希码之间的距离不会小于m。s_ij为相似性矩阵，

和

分别表示图像和文本模态的数据的哈希码。

(2)文本模态数据处理网络

对于文本模态数据的处理，在特征提取阶段，首先使用词袋模型对文本数据进行建模。然后建立一个两层的全连接神经网络对文本模态的数据进行特征提取。神经网络的输入是使用词袋模型表示的词向量，第一个全连接层有8192个节点，第二个全连接层节点的数据同样要求与哈希码的长度相同。

同时，也考虑到文本模态的数据间的损失依然可能对跨模态检索的准

确率产生影响，故设置文本模态间的损失函数如下：

其中D(·)表示两个哈希码之间距离的度量，第二部分是文本模式之间的损失。为了惩罚相似的文本被映射到不相似的二值哈希码的情况和不相似的文本被映射到相似的二值哈希码的情况，m同样是阈值。

(3)类别标签数据处理网络

鉴于目前大多数跨模态检索方法都仅针对不同的模态数据进行处理，且仅把相应的类别标签数据用于相似性矩阵的生成，本发明使用自监督的训练方式从标签数据中提取语义特征，最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离，使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征，该神经网络的具体配置如表2所示：

表2标签处理神经网络结构

对于类别标签处理的神经网络，采用的第一层为卷积层，其卷积核大小为1x24，即为类别标签数，同时步长为1，不对边缘像素补边，并采用局部相应归一化操作，而第二个卷积层采用1x1的卷积核，其效果类似于全连接层，且步长为1，不对边缘像素补边。

类别标签网络的损失函数如下：

其中

和

分别表示语义标签网络提取的语义特征和图像与文本网络分别提取的特征，通过最小化该损失函数，使得图像模态和文本模态的特征分布在标签的语义特征指导下趋于一致。

因为跨模态哈希目的是学习两种模式的统一哈希代码：u＝[u₁,u₂,u₃,…,u_K]∈{-1,+1}^1×K和v＝[v₁,v₂,v₃,…,v_K]∈{-1,+1}^1×K，其中K是二进制代码的长度，u和v分别代表学习到的图像模态和文本模态数据的哈希码。两个二进制码之间的相似性是通过汉明距离来评估的，它们的汉明距离D(u,v)与其内积u·v之间的关系可以表示为

因此，本发明使用两个二进制码的内积来量化它们的相似度。在给定u和v的情况下，相似性矩阵S的条件概率为：

其中σ(θ)＝1/(1+e^-θ)，

所以，同样采用负的对数似然函数为跨模态哈希的目标函数:

可以发现，最小化这个负的对数似然损失，相当于最大化似然函数，可以使得u和v所保持的相似性在S_ij＝1时是大的，而在S_ij＝0时是小的。因此，L_inter可以维持S_ij与图像生成的散列值u和文本生成的散列值v之间的跨模态相似性。

在跨模态检索任务中，损失函数代表了当前的模型对数据集的特征分布的理解能力与学习目标之间的差距。损失函数设计的好坏更是会直接影响模型学习的最终效果，因为损失函数指出了当前模型与学习的理想目标之间的差距，如果当前损失函数不能充分指出当前状态与理想状态间的差距，相当于之后所有参数更新的方向都是存在偏差的，没有目标的情况下模型很难达到最终的理想状态。

虽然现在处于数据***的时代，针对各种任务的数据集层出不穷，多如牛毛，但暂且不论其数据标注的质量如何，其数据集本身往往也存在一定的问题。在跨模态检索任务中，把相似的图像与文本对称为正样本，把不相似的图像与文本对称为负样本，而在现在比较常用的数据集中，正样本的数量远远少于负样本，例如本发明的实验所使用的MIRFLICKR-25K数据集，在每次以64个图像与文本对批量输入训练网络的时候，每次输入样本中的正负样本比例约为2:8，如果不加以控制，很容易导致训练过程出现偏向性，使得模型在出现偏差，对正样本的学***衡问题，导致检索性能受到一定的制约。因此，我们提出了一种自适应权值的损失函数来解决这一问题。自适应权值损失可以依据训练时输入网络的样本中正负样本的比例自动调节正负样本损失项的权值，使整个训练过程对样本的学习更充分，不受数据集中样本比例的影响。

根据上述各节，本发明所提出的算法的损失函数可以定义为：

其中m>0是一个阈值参数，代表了同一模态内部，不相似的数据间的距离至少应比相似的数据间的距离多m，这一数值可以根据情况自行更改，调节对不相似数据映射错误时的容忍程度。

针对数据集中存在的正负样本比例不均衡问题，专门设置一个权值w_ij，针对相似样本和不相似样本比例的具体情况进行自动调整，分别对相应项设置不同的权重，该权重的设置为：

其中

S₁＝{s_ij∈S|s_ij＝1}S₀＝{s_ij∈S|s_ij＝0}

即S₁表示训练时每一次批量输入神经网络中所有相似的图片与文本对的数量，而S₀则表示其中不相似的图片与文本对的数量。所以，加上权重之后的损失函数L_w为

因为在训练神经网络时，每次批量输入到神经网络中的相似样本数量小于不相似样本数量，即|S₁|<|S₀|，此时分别为正负样本设计不同的权重。当输入的图像与文本对是相似的时，其对应的权值为

当图像与文本对不相似时，其对应的权值为

也就是人为的在整体损失值中放大相似样本间的损失所占的比例，避免神经网络的训练出现偏向性，导致对数据的训练不充分，保证了检索算法的鲁棒性与稳定性。

因为哈希学习的目的是得到最终的二值哈希码，因此，如何将神经网络输出的连续型数值量化为哈希码亦是不容忽视的问题，通常的哈希学习算法都将神经网络输出的连续型数值先通过sigmoid函数，将其压缩到0和1之间，再整体减去0.5后经过符号函数，得到最终的哈希码，即

b＝sign(σ(x)-0.5)

这样做的目的是想要减少量化误差，但是sigmoid函数本身在反向传播时极易导致神经网络出现梯度消失的状况，而且直接将神经网络的输出数值压缩到0和1之间后，无论是对图像还是文本都会造成一定的信息损失。

所以，本发明不采用sigmoid函数，使用形为f(x)＝||x|-1|的二值约束项来作为生成哈希码时的量化误差，该函数如图2所示。

二值约束项的量化损失为

L_q＝||B^x|-1|+||B^y|-1|

其中B^x和B^y分别代表了图像模态与文本模态的数据的近似哈希码。经过神经网络的迭代训练，不断减小该项损失，使得哈希学习生成的近似哈希码会尽量靠近+1和-1。

从以上各节的介绍可知，本算法整体的损失函数为：

其中γ和η为超参数，通常由以往的经验而设置。

为了验证本发明提出的基于自监督的跨模态深度哈希检索方法的正确性，同时测试其性能，设计了多个对比实验测试相关算法的准确性与效率性，该实验包括提出的方法的自我验证以及与其他跨模态检索方法的比较。包括一些传统跨模态检索方法与基于深度学习的跨模态检索方法。实验的检索方式分为通过图像检索文本和通过文本检索图像两种方式，同时，将实验所用到的数据集进行切分，分为训练集与测试集，训练集用于训练整个自监督的跨模态联合的深度哈希检索方法，而测试集用于从中选取需要查询的数据，训练集与测试集共同组成待检索数据库，用于从中返回查询到的结果。

实验在两个公共数据集MIRFLICKR-25K和NUS-WIDE上进行，其中MIRFLICKR-25K数据集包括25,000个样本，每个样本都被人工标注到24个类别标签，而且每张图片都有与之对应的一段文本数据。选取其中最常用的20,015个样本进行实验，其中统一将图片数据放缩至224x224，文本数据用1386维的词袋模型表示，随机选取其中的10,000个样本作为训练集，2,000个样本作为测试集。NUS-WIDE数据集是由新加坡国立大学多媒体实验室(LMS)创建的数据集合。包含269,648幅现实生活中的图像所组成的数据集，共包含81个类别，但是有一些类别中的数据是不常见的，并且数量很小。筛选后删除其中没有文本或类别标签的数据，并从269,648个图像中选择了190,421个图像，这些图像属于21个最常用的标签。

实验所需的软硬件配置如表3所示：

表3实验环境软硬件配置

该实验所使用的评价指标为平均精度均值(Mean Average Precision，mAP)。

在MIRFLICKR-25K和NUS-WIDE数据集上进行对比实验，分别测试使用自监督训练方法和不使用自监督训练方法时的检索效果，评价指标为mAP值。每个数据集上的哈希码长度设置为16位，32位，48位和64位。实验结果如表4、表5、表6和表7所示：

表4自监督训练在MIRFLICKR-25K上的mAP值(Image→Text)

表5自监督训练在MIRFLICKR-25K上的mAP值(Text→Image)

表6自监督训练在NUS-WIDE上的mAP值(Image→Text)

表7自监督训练在NUS-WIDE上的mAP值(Text→Image)

从上述结果可以看出，无论是以图像检索文本，还是以文本检索图像，在检索效果上，添加了语义保留层的跨模态深度哈希检索方法要优于没有添加语义保留层的跨模态深度哈希检索方法，在MIRFLICKR-25K数据集和NUS-WIDE数据集上，mAP效果指标都提升了5％左右。语义保留层能更好地利用监督信息，使得生成的哈希码更好的保留语义信息，对于跨模态检索任务能更好的检索出语义相关的其他模态的数据。

为了验证自适应权值的损失函数的作用，分别在MIRFLICKR-25K和NUS-WIDE数据集上进行对比实验，分别测试使用自适应权值的损失函数和不适用自适应权值的损失函数的检索效果，评价指标也为mAP值。每个数据集的哈希码长度为16位，32位，48位和64位。在MIRFLICKR-25K数据集上的实验结果如表8、表9所示：

表8自适应权值损失在MIRFLICKR-25K上的mAP值(Image→Text)

表9自适应权值损失在MIRFLICKR-25K上的mAP值(Text→Image)

在NUS-WIDE数据集上的实验结果如下：

表10自适应权值损失在NUS-WIDE上的mAP值(Image→Text)

表11自适应权值损失在NUS-WIDE上的mAP值(Text→Image)

表8和表9显示在MIRFLICKR-25K数据集上自适应权重的损失函数比不加效果略有提升，但在增大哈希码比特位之后，这种提升效果越来越小，而且同一种损失函数，随着哈希码位的增长，mAP值没有显着改善。究其原因，大概是MIRFLICKR-25K数据集数据量不算很大，用16比特等较小比特数的哈希码就能很好的保留样本的语义特征，所以增加哈希码比特位的长度对于mAP值的影响不大。

从表10和

来看，自适应权重的损失函数在两个公共数据集上均能提升检索的效果，但在数据集NUS-WIDE上的效果提升较MIRFLICKR-25K数据集效果较为明显，原因应该时NUS-WIDE数据集的样本数比较MIRFLICKR-25K数据集大，标签类别也比较多，样本不平衡的问题较为严重，所以使用自适应权重的损失函数能带来较大的效果提升。

为了验证二值约束项的作用，分别在MIRFLICKR-25K和NUS-WIDE数据集上进行对比实验，分别测试使用二值约束正则项和不适用二值约束正则项的检索效果，评价指标也为mAP值。在每个数据集上哈希码长度都取16比特、32比特、48比特以及64比特。在MIRFLICKR-25K数据集上的实验结果如表12、表13：

表12二值约束项在MIRFLICKR-25K上的mAP值(Image→Text)

表13二值约束项在MIRFLICKR-25K上的mAP值(Text→Image)

在NUS-WIDE数据集上的实验结果如下：

表14二值约束项在NUS-WIDE上的mAP值(Image→Text)

表15二值约束项在NUS-WIDE上的mAP值(Text→Image)

从上述结果可知，使用了二值约束的正则项的量化方法能够提升跨模态检索在多种任务和多种数据集情况下的准确率。主要是因为其通过最小化量化误差来使得生成的二值哈希码不断逼近+1和-1，而无需通过其他缩放等手段来使得近似哈希码二值化，且保留了各种模态原有的信息。

遵循上述基于自监督的跨模态深度哈希检方法的设计，本节的对比实验选取的方法有：

(1)DCMH：Deep Cross Modal Hashing，设计了一个端到端的方法，使用深度神经网络自动提取特征并进行哈希学习。

(2)SePH：Semantics-Preserving Hashing，使用标签数据作为监督信息，将训练数据的语义相似性转换为概率分布，再使用logistic回归对每个视图的特征进行到哈希码的非线性映射。

(3)STMH：Semantic Topic Multimodal Hashing，通过对文本进行散列并分解图像矩阵，获得多个语义特征的文本和图像，然后将其转换为公共子空间以生成哈希码。

(4)SCM：Semantic Correlation Maximization，通过将语义标签信息无缝地集成到大规模数据建模的散列学习过程中来实现最大化语义相关性的目标。

(5)CMFH：Collective Matrix Factorization Hashing，通过集合矩阵分解和潜在因子模型从实例的不同模式学习统一哈希码不仅支持跨视图搜索，还通过组合多个视图信息源来提高搜索精度。

(6)CCA：Canonical Correlation Analysis，利用典型相关分析的思想，将两个模态数据的矩阵投影到具有最大相关性的公共子空间中。

本发明所采取的对比实验基于跨模态检索的两种方式，一种是以图片检索文本，另一种是以文本检索图片，在MIRFLICKR-25K数据集上的结果如表16和表17所示：

表16多种算法在MIRFLICKR-25K上的mAP(Image→Text)

表17多种算法在MIRFLICKR-25K上的mAP(Text→Image)

在NUS-WIDE数据集上的实验结果如表18和表19所示：

表18多种算法在NUS-WIDE上的mAP(Image→Text)

表19多种算法在NUS-WIDE上的mAP(Text→Image)

从上述结果可以看出，本发明所设计的算法与传统的算法CCA、CMFH等方法相比，卷积神经网络用于提取图像的特征，并且由学习的散列模型生成的散列码可以保留图像的语义信息。因此使用这些哈希码进行检索的效果要远远高于传统的哈希算法。与STMH、SCM等基于神经网络的哈希算法相比，由于本算法采用端到端的网络结构，能够自动的提取各种模态数据的特种，不再依赖于手工设计的特征，可以更好的发挥深度神经网络的作用。同时，与DCMH等深度哈希算法相比，本算法针对现存深度哈希网络存在的问题和不足，提出了多种改进方法，因此该算法的检索性能优于其他基于深度学习的哈希算法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于自监督的跨模态联合哈希检索方法，该方法包括以下步骤：

步骤4：最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离，使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征；

其中，使用形为f(x)＝||x|-1|的二值约束项来作为生成哈希码时的量化误差，二值约束项的量化损失为

L_q＝||B^x|-1|+||B^y|-1|

其中，B^x和B^y分别代表了图像模态与文本模态的数据的近似哈希码。

2.根据权利要求1所述的方法，其特征在于，图像模态间损失函数如下：

其中D(·)表示对两个哈希码距离的度量，s_ij表示两张图片是否相似，若s_ij＝1则两张图片相似；s_ij＝0则两张图片不相似，该损失函数的第一项是为了惩罚相似的图片被映射到不相似的二值哈希码的情况，第二项是为了惩罚不相似的图片被映射到相似的二值哈希码的情况，其中m为阈值，表示不相似的两张图片的哈希码之间的距离不会小于m；

和

分别表示两张图像生成的哈希码。

3.根据权利要求2所述的方法，其特征在于，文本模态间的损失函数如下：

其中D(·)表示两个哈希码之间距离的度量，s_ij表示两段文本是否相似，若s_ij＝1则两段文本相似；s_ij＝0则两段文本不相似，第二项是为了惩罚相似的文本被映射到不相似的二值哈希码的情况或不相似的文本被映射到相似的二值哈希码的情况，m同样是阈值，

分别表示两段文本生成的哈希码。

4.根据权利要求3所述的方法，其特征在于，类别标签神经网络的损失函数如下：

其中

和

分别表示语义标签网络提取的语义特征和图像与文本网络分别提取的特征，s_ij表示两个标签是否相似，若s_ij＝1则两个标签相似；s_ij＝0则两个标签不相似，通过最小化该损失函数，使得图像模态和文本模态的特征分布在标签的语义特征指导下趋于一致。

5.根据权利要求1-4任一项所述的方法，其特征在于，该类别标签神经网络中采用的第一层为卷积层，其卷积核大小为1x24，即为类别标签数，同时步长为1，不对边缘像素补边，并采用局部相应归一化操作，而第二个卷积层采用1x1的卷积核，其效果类似于全连接层，且步长为1，不对边缘像素补边。