CN109299216A

CN109299216A - 一种融合监督信息的跨模态哈希检索方法和***

Info

Publication number: CN109299216A
Application number: CN201811269037.9A
Authority: CN
Inventors: 张化祥; 王粒; 冯珊珊; 任玉伟; 刘丽; 张庆科; 朱磊
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-01
Anticipated expiration: 2038-10-29
Also published as: CN109299216B

Abstract

本发明公开了一种融合监督信息的跨模态哈希检索方法和***，所述方法包括：构建图像网络，文本网络和融合网络；获取图像和文本特征训练样本对，分别输入图像网络和文本网络；将图像网络和文本网络的输出特征作为所述融合网络的输入，并定义所述融合网络的输出；根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数；求解所述目标函数，得到统一哈希码；将所述统一哈希码作为监督信息，结合语义信息，训练特定模态的哈希网络。本发明基于端到端的深度学习框架同时地学习特征表示和哈希编码，能够更有效地捕获不同模态数据之间的相关性，有助于跨模态检索精度的提高。

Description

一种融合监督信息的跨模态哈希检索方法和***

技术领域

本公开涉及跨模态检索方法，更具体地说，涉及一种融合监督信息的跨模态哈希检索方法和***。

背景技术

近些年，随着网络上不同类型数据的急剧增长，近似最近邻(ANN)搜索在相关应用中起着越来越重要的作用。例如，信息检索、数据挖掘、计算机视觉等。哈希技术由于其计算成本低和存储效率高，已经成为ANN搜索中最受欢迎的技术之一。哈希的基本思想是通过学习哈希函数将高维的数据映射到紧凑二进制编码的汉明空间，同时尽可能保留原始空间的相似性结构。目前很多应用于单模态场景中的哈希方法已经被提出，然而在现实世界中具有相同语义的数据往往存在多种模态，例如，图像、文本、视频等。为了充分利用异构数据之间的关系，在ANN搜索中发展跨模态哈希(CMH)方法是很有必要的。具体地，在跨模态相似性搜索中，查询数据的模态与被检索数据的模态不同。本公开以图像检文本(I2T)和文本检图像(T2I)任务为例进行分析和实验，同时此方法可以扩展到其他任意模态之间的检索。

现有的跨模态哈希(CMH)方法大多数是基于手动处理的特征，其特征提取和哈希码学习过程是独立进行的。这就可能会限制样本的判别表示，进而损坏学习的哈希码的准确性。最近，基于深度学习的哈希方法提出了一种端到端的学习框架同时学习特征表示和哈希编码，其能够比浅层学习方法更有效地捕获不同模态之间的非线性相关性。作为经典的方法，深度跨模态哈希(DCMH)将传统的深度模型扩展到跨模态检索中，并对每一种模态执行具有深度神经网络的端到端的学习框架。对间关系引导的深度哈希(PRDH)进一步整合多种对间约束，从模态间和模态内增强哈希码的相似性。

在上述提及的深度跨模态哈希框架中，对于来自两个不同模态的成对样本，它们的哈希码通常被强制设置成一样的。并且，这些方法通过每种模态的深度神经网络分别学习单一样本的特征表示，然后最小化不同模态特征之间的损失来建立异构的关系。这样就存在以下弊端：仅通过简单地对不同模态的神经网络的最后一层施加约束，不能够充分挖掘多模态数据间的复杂关系。

发明内容

为克服上述现有技术的不足，本公开提供了一种融合监督信息的跨模态哈希检索方法和***，所述方法基于端到端的深度学习框架同时地学习特征表示和哈希编码，能够比传统学习方法更有效地捕获不同模态数据之间的相关性，有助于跨模态检索精度的提高。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

一种融合监督信息的跨模态哈希检索方法，包括以下步骤：

构建图像网络，文本网络和融合网络；

获取图像和文本特征训练样本对，分别输入图像网络和文本网络；

将图像网络和文本网络的输出特征作为所述融合网络的输入，并定义所述融合网络的输出；

根据所述融合网络的输出和对间相似性构建学习统一哈希码的目标函数；

求解所述目标函数，得到统一哈希码；

将所述统一哈希码作为监督信息，结合语义信息，训练特定模态的哈希网络。

进一步地，所述图像网络包括5个卷积层和3个全连接层；文本网络包括两个全连接层；融合网络包括两个全连接层；其中，所述图像网络和文本网络最后一层的隐藏单元个数相等，融合网络的第二层为哈希层，并且其激活函数为判别函数。

进一步地，将所述图像网络和文本网络的输出特征通过非线性激活函数，得到所述融合网络的输入。

进一步地，所述学习统一哈希码的目标函数为：

其中，第一项是对间嵌入约束项，并且其中H_*i、H_*j分别表示不同训练样本对的融合网络输出，S＝{s_ij}表示对间相似性矩阵，B∈{-1,1}^k×n表示统一的哈希码矩阵，p(s_ij|B)表示给定哈希码B时，s_ij的条件概率分布，λ表示超参；第二项最小化融合网络的输出和二进制码之间的损失，H＝h(Z；θ_z)∈R^k ^×n为融合网络的输出；第三项是平衡约束项，用来最大化每一位哈希码的信息，η表示超参，表示F范数。

进一步地，求解所述目标函数包括：

初始化图像、文本和融合网络参数θ＝{θ_v,θ_t,θ_z}，和批量大小；

固定网络参数θ＝{θ_v,θ_t,θ_z}，更新统一的哈希码B；

然后固定B，利用小批量随机梯度下降法更新参数θ＝{θ_v,θ_t,θ_z}；

不断交替更新，直至收敛。

进一步地，所述特定模态的哈希网络中，图像网络包括5个卷积层、2个全连接层和1个哈希层，文本网络包括1个全连接层和1个哈希层；其中，所述图像网络和文本网络中的哈希层的激活函数为判别函数。

进一步地，所述训练特定模态的哈希网络包括：求解总体目标函数，得到图像网络和文本网络的参数；所述目标函数为：

其中，α、β、γ分别表示超参；J₁是模态间成对嵌入约束，其中F_*i＝f(v_i；θ_v)表示从图像网络输出的第i个样本的特征表示，G_*j＝g(t_j；θ_j)表示从文本网络输出的第j个样本的特征表示；J₂使用第一阶段得到的统一哈希码作为监督信息，训练特定模态的哈希网络，B∈{-1,1}^k×n表示统一的哈希码矩阵，F表示图片特征输出，G表示文本特征输出；J₃将标签信息线性地映射到特定模态的网络，和分别表示图像和文本模态的映射矩阵，Y表示语义矩阵；J₄是平衡约束，用来最大化每一位的信息。

进一步地，求解所述总体目标函数包括：

初始化图像网络参数θ_v、文本网络参数θ_t和批量大小；

固定参数θ_v和θ_t，求解目标函数更新W₁和W₂；

然后固定W₁和W₂，利用小批量随机梯度下降法分别更新图像参数θ_v和文本参数θ_t；

不断交替更新，直至收敛。

一个或多个实施例提供了一种计算机***，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的融合监督信息的跨模态哈希检索方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的融合监督信息的跨模态哈希检索方法。

上述技术方案中的一个或多个具有以下有益效果：

1、传统的跨模态哈希方法，其特征提取和哈希编码的学习过程是相互独立的，本公开基于端到端的深度学习框架，同时学习特征表示和哈希编码，能够更有效地捕获不同模态数据之间的相关性。

2、本公开将不同模态的特征成对地输入到融合网络，通过非线性的转换来探索多模态数据之间的相关性，并获得高质量的哈希码来监督特定模态的哈希网络的训练；利用迭代更新的策略求解优化问题，并在优化过程中保持哈希码的离散特性而没有对其进行松弛，这样就减少了量化误差；对间相似性信息和分类信息在同一流形框架下被嵌入到哈希网络，很好地保持了模态间的相似性和语义一致性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例一中融合监督信息的跨模态哈希检索方法的流程框图；

图2为实施例一中融合监督信息的跨模态哈希检索方法的流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种融合监督信息的跨模态哈希检索方法，如图1-2所示，包括以下步骤：

第一阶段：统一哈希码学习

步骤1：构建三个网络：图像网络，文本网络和融合网络。(1)图像网络使用的CNN-F网络。原始的CNN-F模型共有8层，包括5个卷积层和3个全连接层。(2)对于文本模态，首先将每一个文本样本表示成bag-of-word(BOW)向量，然后将BOW向量输入到具有两个全连接层的文本网络。特别地，图像和文本网络最后一层的隐藏单元个数相等，且根据不同的编码长度和数据集设置不同的值。(3)融合网络由两个全连接层组成，其成对地结合了图像和文本网络的输出。为了获得统一的哈希码，融合网路的第二层设计为具有k个隐藏单元的哈希层，并且其激活函数为判别函数。

步骤2：给定数据集n代表训练样本对的总数，v_i表示图片特征，t_i表示文本特征，y_i表示语义标记向量。此外，S＝{s_ij}表示对间相似性矩阵。本阶段的目标是为每一个样例学习紧凑的二进制码b_i∈{-1,1}^k，B∈{-1,1}^k×n表示统一的哈希码矩阵。

步骤3：表示从图像网络输出的特征表示，表示从文本网络输出的特征表示。通过非线性激活函数(tanh函数)结合以上两种模态的输出，得到融合网络的输入。进一步，定义融合网络的输出H＝h(Z；θ_z)∈R^k×n。为学习统一的哈希码，构建目标函数：

其中，第一项是对间嵌入约束项并且其中H_*i、H_*j分别表示不同训练样本对的融合网络输出。S＝{s_ij}表示对间相似性矩阵，B∈{-1,1}^k×n表示统一的哈希码矩阵，p(s_ij|B)表示给定哈希码B时，s_ij的条件概率分布。通过最小化第一项中的负对数似然函数来保持矩阵S中的相似性，即，使得两个相似样本之间的相似性(内积)尽可能的大，而不相似样本之间的相似性(内积)尽可能的小。第二项最小化融合网络的输出和二进制码之间的损失，这样使得学***衡约束项，用来最大化每一位哈希码的信息，即要求每一位有均等的机会为1或-1。，λ表示超参(且λ>0)，η表示超参(且η>0)，表示F范数。

步骤4：对于公式(1)的优化问题，使用迭代更新策略进行求解。通过固定网络参数θ＝{θ_v,θ_t,θ_z}学习统一的哈希码B，然后固定B，利用小批量随机梯度下降法(SGD)更新参数θ＝{θ_v,θ_t,θ_z}，经过不断交替更新，直至收敛，求得最优的统一哈希码B。具体地，包括以下步骤：

固定网络参数θ＝{θ_v,θ_t,θ_z}，根据以下公式更新统一的哈希码B；

B＝sign(λH)

然后固定B，利用小批量随机梯度下降法更新参数θ＝{θ_v,θ_t,θ_z}，如下计算其梯度；

不断交替更新，直至收敛。

第二阶段：特定模态哈希网络训练

步骤1：重新设计图像网络和文本网络，用于训练特定模态的哈希网络。除了将图像和文本网络的最后一个全连接层替换为哈希层(具有k个隐藏单元)并且将判别函数作为其激活函数，其他层的设置和上一阶段完全相同。

步骤2：在这一阶段，主要训练图像网络f(V；θ_v)和文本网络g(T；θ_t)以获得对应的哈希函数h^v(·)和h^t(·)来编码训练数据外的样本。

步骤3：定义总体目标函数：

其中，J₁是模态间成对嵌入约束，用来保持图像和文本网络的输出之间的跨模态相似性；J₂使用第一阶段得到的统一哈希码作为监督信息，训练特定模态的哈希网络；J₃直接将标签信息线性地映射到特定模态的网络，以充分挖掘语义信息。J₄是平衡约束，用来最大化每一位的信息。它们的具体定义如下：

步骤4：对于公式(2)的优化问题，同样地使用迭代更新策略进行求解：通过固定其他参数，更新其中的某一个参数。特别地，利用小批量随机梯度下降，并通过反向传播(BP)算法来更新参数θ_v和θ_t。具体地，包括以下步骤：

初始化图像网络参数θ_v、文本网络参数θ_t和批量大小；

固定参数θ_v和θ_t，求解目标函数并根据如下公式分别更新W₁和W₂；

然后固定W₁和W₂，利用小批量随机梯度下降法分别更新图像参数θ_v和文本参数θ_t，如下计算其梯度；

不断交替更新，直至收敛。

我们分别在MIRFLICKR-25K和NUS-WIDE两个数据集上进行实验。

MIRFLICKR-25K数据集包含从Flickr网站上搜集的25,000个样例，每一个样例包含一个图片和一些文本标签。并且总共给定24个标签，每一个样例被其中的至少标签一个标注。我们选择至少有20个标签标注的样例用于实验，共包含20,015个图像-文本对。其中，文本模态被表示为1386维的BoW向量，而对于图像模态直接使用原始像素作为输入。在实验中，我们随机取2,000样例作为查询，其余作为被检索的数据库。为了减少计算成本，我们从数据库中取5,000个样例用于训练。

NUS-WIDE，是一个真实网页的图片数据库包含269,648个样例，它们被81个主题标签标注。每一各样例包含一个图片和与其关联的文本标签。在实验中，我们选取最大的10个类构成一个子集，共包含186,577个图像-文本对。对于每一个样例，文本模态被表示成1，000维的BoW向量，图像模态直接使用原始像素作为输入。在此数据集上，我们随机采样2,000各样例作为查询，其余的作为数据库。同样地，随机从数据库中取5,000个数据点用于训练。

本实施例在MatConvNet框架下进行实施。对于图像网络，我们使用在ImageNet数据集上预训练的CNN-F网络进行初始化。对于其它深度神经网络的参数，我们随机进行初始化。此外，对于具有两个全连接层的文本网络，在MIRFLICKR-25K数据集上我们设置其维度是[8192→2500]；而在NUS-WIDE数据集上，当编码长度为16和32位时，其维度设置为[8192→1000]，当编码长度为64位时，设置为[8192→600]。对于成对地结合了图像和文本网络输出的融合网络，在所有的数据集上我们设置其全连接层的维度都为[4096→k]。在实验中，所有参数经验地取值为1，学习率从10^-1.5到10^-3变化，算法中的外层循环迭代次数设置为500次。算法实现过程如下。

第1阶段：统一哈希码学习

输入：图片集V和文本集T；对间相似性矩阵S；参数γ,β,α；编码长度k

输出：统一的哈希矩阵B

初始化：初始化图像、文本和融合网络参数θ＝{θ_v,θ_t,θ_z}，批量大小N_v＝N_t＝128，

循环次数

循环执行下列语句

1.固定参数θ＝{θ_v,θ_t,θ_z}，根据公式B＝sign(λH)更新B

2.for iter＝1,2,...t_z{

①随机从V和T中分别采样N_v和N_t个数据点构建小批量

②对于小批量中成对的样本v_i和t_i，通过前向传播分别计算和h(z_i；θ_z)

③计算顶层的梯度，根据下面的公式：

④对图像、文本和融合网络进行反向传播，更新参数θ＝{θ_v,θ_t,θ_z}}

直至收敛

第2阶段：特定模态哈希网络训练

输入：图片集V和文本集T；对间相似性矩阵S；标记矩阵Y；学习的哈希矩阵B；

参数γ,β,α；编码长度k

输出：特定模态的哈希网络参数θ_v和θ_t

初始化：初始化图像、文本网络参数θ_v和θ_t，批量大小N_v＝N_t＝128，循环次数

循环执行下列语句

1.固定参数θ_v和θ_t，根据公式更新W₁，根据公式更新W₂

2.for iter＝1,2,...t_v{

①随机从V中采样N_v个数据点构建小批量

②对于每一个样本v_i，通过前向传播计算f(v_i；θ_v)

③反向传播下面公式中的导数，更新参数θ_v

3.for iter＝1,2,...t_t{

①随机从T中采样N_t个数据点构建小批量

②对于每一个样本v_t，通过前向传播计算g(t_i；θ_t)

③反向传播下面公式中的导数，更新参数θ_t

直至收敛

在两个数据集上进行实验，并对比了当前比较流行的其他6种方法(LSSH,CMFH,DCH,SCM,SePHkm,DCMH)。为了保证比较的公平性，我们从本方法中图像网络的第7层提取CNN特征用于浅层的对比方法。从表1-2可以看出：本实施例提供的方法在不同数据集上都表现出优于其他方法的检索性能。

表1

表2

实施例二

本实施例的目的是提供一种计算装置。

一种计算机***，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：

构建图像网络，文本网络和融合网络；

求解所述目标函数，得到统一哈希码；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

构建图像网络，文本网络和融合网络；

求解所述目标函数，得到统一哈希码；

以上实施例二和三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

以上一个或多个实施例具有以下有益效果：

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

1.一种融合监督信息的跨模态哈希检索方法，其特征在于，包括以下步骤：

构建图像网络，文本网络和融合网络；

求解所述目标函数，得到统一哈希码；

2.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述图像网络包括5个卷积层和3个全连接层；文本网络包括两个全连接层；融合网络包括两个全连接层；其中，所述图像网络和文本网络最后一层的隐藏单元个数相等，融合网络的第二层为哈希层，并且其激活函数为判别函数。

3.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，将所述图像网络和文本网络的输出特征通过非线性激活函数，得到所述融合网络的输入。

4.如权利要求3所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述学习统一哈希码的目标函数为：

其中，第一项是对间嵌入约束项，并且

其中H_*i、H_*j分别表示不同训练样本对的融合网络输出，S＝{s_ij}表示对间相似性矩阵，B∈{-1,1}^k×n表示统一的哈希码矩阵，p(s_ij|B)表示给定哈希码B时，s_ij的条件概率分布，λ表示超参；第二项最小化融合网络的输出和二进制码之间的损失，H＝h(Z；θ_z)∈R^k×n为融合网络的输出；第三项是平衡约束项，用来最大化每一位哈希码的信息，η表示超参，表示F范数。

5.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，求解所述目标函数包括：

固定网络参数θ＝{θ_v,θ_t,θ_z}，更新统一的哈希码B；

不断交替更新，直至收敛。

6.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述特定模态的哈希网络中，图像网络包括5个卷积层、2个全连接层和1个哈希层，文本网络包括1个全连接层和1个哈希层；其中，所述图像网络和文本网络中的哈希层的激活函数为判别函数。

7.如权利要求1所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，所述训练特定模态的哈希网络包括：求解总体目标函数，得到图像网络和文本网络的参数；所述目标函数为：

其中，α、β、γ分别表示超参；J₁是模态间成对嵌入约束，，其中F_*i＝f(v_i；θ_v)表示从图像网络输出的第i个样本的特征表示，G_*j＝g(t_j；θ_j)表示从文本网络输出的第j个样本的特征表示；J₂使用第一阶段得到的统一哈希码作为监督信息，训练特定模态的哈希网络，B∈{-1,1}^k×n表示统一的哈希码矩阵，F表示图片特征输出，G表示文本特征输出；J₃将标签信息线性地映射到特定模态的网络，和分别表示图像和文本模态的映射矩阵，Y表示语义矩阵；J₄是平衡约束，用来最大化每一位的信息。

8.如权利要求7所述的一种融合监督信息的跨模态哈希检索方法，其特征在于，求解所述总体目标函数包括：

初始化图像网络参数θ_v、文本网络参数θ_t和批量大小；

固定参数θ_v和θ_t，求解目标函数获取W1和W2；

然后固定W1和W2，利用小批量随机梯度下降法更新网络参数；

不断交替更新，直至收敛。

9.一种计算机***，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的融合监督信息的跨模态哈希检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一项所述的融合监督信息的跨模态哈希检索方法。