CN107402993B

CN107402993B - 基于判别性关联最大化哈希的跨模态检索方法

Info

Publication number: CN107402993B
Application number: CN201710581083.1A
Authority: CN
Inventors: 张化祥; 卢旭; 万文博; 刘丽; 郭培莲; 任玉伟; 孙建德; 王强
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2018-09-11
Anticipated expiration: 2037-07-17
Also published as: CN107402993A

Abstract

本发明提出了一种基于判别性关联最大化哈希的跨模态检索方法，包括：对训练数据集进行多模态提取，得到训练多模态数据集；对于训练多模态数据集，构造该数据集上的基于判别性关联最大化哈希的目标函数；求解所述目标函数，得到图像、文本的投影到公用的海明空间的投影矩阵、图像文本对的联合哈希码；对于测试数据集，投影到所述公用的海明空间，并通过哈希函数量化为训练集样本的哈希码；基于哈希码进行跨模态检索。本发明提高了跨媒体检索的效率和准确度。

Description

基于判别性关联最大化哈希的跨模态检索方法

技术领域

本发明涉及数据检索领域，具体涉及一种基于判别性关联最大化哈希的跨模态检索方法。

背景技术

随着科学技术的发展，互联网中涌入了大量的多模态数据。为了从互联网中检索到有用的信息，兴起了一系列信息检索技术。传统信息检索技术基于单模态，即输入的查询数据和检索得到的结果是同模态。这使得信息检索非常具有局限性，因此我们希望将单模态的信息检索扩展到跨模态的信息检索，即给定一张图片，检索到与该图片相关的文字描述，反之同理。

因为不同模态的数据具有不同的特性，因此几乎不可能直接度量二者的相似性，这是跨模态方法的主要挑战。为了解决这一问题，最常用的方法就是子空间学习法。典型相关分析(CCA)是一种通用的无监督子空间学习法，它将不同模态的数据投影到同一空间，同时将两个模态之间的关系最大化。CCA方法旨在将两个不同模态的数据之间的关系最大化，而偏最小二乘(PLS)是从协方差的角度解决跨媒体检索的问题。广义的多模态分析(GMA)使用了类别标记作为监督信息，它是CCA方法在有监督领域的扩展。

上面提到的跨媒体检索方法在处理大规模数据时往往需要消耗大量的时间和存储空间。为了解决这一问题，哈希方法应运而生。在哈希方法中，用二进制的哈希码来表示数据，在度量不同数据之间的相似性时，只需要在海明空间中对不同数据的哈希码进行基于位数的异或运算。哈希方法有效减少了运算复杂性，使用更少的存储空间。基于哈希的跨模态方法通常将不同模态的数据投影到一个通用的海明空间，在这个空间中得到不同模态数据的哈希码，从而可以直接进行不同模态数据之间的相似度度量。基于哈希的跨模态检索方法已经得到了有效应用，基于哈希的共同矩阵分解(CMFH)为多模态数据学习到一个共用的哈希码，并利用它在通用语义空间中进行相似度度量；潜在语义稀疏哈希(LSSH)分别利用稀疏编码和矩阵分解得到两个模态数据的高层语义信息，然后利用哈希方法进行跨媒体检索。

虽然已有多种基于哈希的跨媒体检索方法，但现存的方法没有考虑到数据特征的判别性分布。数据特征的判别性分布(同类的数据特征尽可能接近，不同类的数据特征尽可能远离)可以使得跨媒体检索的效果更佳精确。因此，如何在将图像和文本投影到语义空间的同时保持它们各自的判别性分布，从而提高检索精度，是目前本领域技术人员仍需解决的技术问题。

发明内容

本发明为了解决上述问题，提出了一种基于判别性关联最大化哈希的跨模态检索方法，在将文本和图像模态的数据特征投影到一个公用的海明空间之后，仍然保持各模态的判别性分布以及使成对的多模态数据之间的关联最大化，从而提高跨模态检索的准确度。

本发明的具体技术方案如下：

一种基于判别性关联最大化哈希的跨模态检索方法，包括以下步骤：

步骤1：获取训练数据集，其中每个样本都包括成对的图像和文本两个模态数据；

步骤2：对训练数据集进行多模态提取，得到训练多模态数据集O^train；

步骤3：对于训练多模态数据集O^train，构造该数据集上的基于判别性关联最大化哈希的目标函数；

步骤4：求解所述目标函数，得到图像、文本的投影到公用的海明空间的投影矩阵W₁和W₂、图像文本对的联合哈希码B，用联合哈希码B作为该对图像和文本的哈希码；

步骤5：获取测试数据集，并对其进行多模态提取，得到测试多模态数据集O^test；

步骤6：对于测试多模态数据集O^test，根据步骤3求得的投影矩阵W₁和W₂，将测试数据集中每个样本的图像或文本投影到所述公用的海明空间，并通过哈希函数量化为训练集样本的哈希码；

步骤7：进行跨模态检索，基于哈希码，在所述训练数据集中检索与测试集中待检索样本相关的另一模态的对象；

所述步骤3中目标函数为：

其中，分别是图像和文本的数据特征矩阵，是标记矩阵；λ，μ₁，μ₂，β，α是平衡参数，γ是正则化参数。

进一步地，所述步骤3包括：

步骤3-1：设训练多模态数据子集O^train每个数据样本为其中，是图像的特征向量，是文本的特征向量，y_i∈{0,1}^c是类别标记，N是样本个数；将两个模态的数据从原始的异构空间投影到公用的海明空间中，并使一个样本中成对的图像和文本之间的关联最大化：

步骤3-2：对文本模态数据进行线性判别分析处理，并使其特性传递到图像模态数据：

步骤3-3：将两个模态数据特征转换为哈希码，将通过哈希函数得到哈希码的量化损失最小化：

步骤3-4：加入类别标记作为监督信息，对哈希码进行分类：

步骤3-5：增加正则化项防止过拟合，其定义为：

步骤3-6：将步骤3-1至3-5整合，得到目标函数。

进一步地，所述步骤4目标函数求解方法为：

步骤4-1：固定目标函数中的其他项，求解图像模态的投影矩阵W₁；

步骤4-2：固定目标函数中的其他项，求解文本模态的投影矩阵W₂；

步骤4-3：固定目标函数中的其他项，求解联合哈希码B；

步骤4-4：固定目标函数中的其他项，求解分类器矩阵Q。

进一步地，所述检索方法还包括：根据多模态数据集自带的类别标记评判检索正确率。

根据本发明的另一方面，本发明还提供了一种用于跨模态检索的目标函数构建方法，包括：

步骤1：获取训练数据集，其中每个样本都包括成对的图像和文本两个模态数据；对所述训练数据集进行多模态提取，得到训练多模态数据集O^train；

步骤2：将两个模态的数据从原始的异构空间投影到公用的海明空间中，并使一个样本中成对的图像和文本之间的关联最大化；

步骤3：对文本模态数据进行线性判别分析处理，并使其特性传递到图像模态数据；

步骤4：将两个模态数据特征转换为哈希码，将通过哈希函数得到哈希码的量化损失最小化；

步骤5：加入类别标记作为监督信息；

步骤6：增加正则化项防止过拟合；

步骤7：将步骤2至6整合，得到基于判别性关联最大化哈希的目标函数目标函数。

进一步地，所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为：

其中，V和T分别是图像和文本的数据特征矩阵，W₁和W₂分别为图像、文本的投影到公用的海明空间的投影矩阵。

进一步地，所述步骤3包括：对文本模态数据进行线性判别分析处理，获取类内相似度矩阵S_w和类间相似度矩阵S_b，将该特性传递到图像模态数据，定义为：

进一步地，所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为：

其中，B为联合哈希码。

进一步地，步骤5类别标记定义为：

其中，Q为分类器矩阵。

进一步地，所述步骤6正则化项定义为：

本发明的有益效果为：

本发明在基于哈希的跨媒体检索中，充分利用了数据特征的判别性分布，对文本模态进行线性判别性分析并将其特性传递给图像模态。此外，还使得同一样本的多模态数据在投影到公用的海明空间之后仍然保持最大化关联。这都使得海明空间中的数据特征分布更加具有判别性，从而由数据特征量化得到的哈希码更容易进行分类，从而提高跨媒体检索的性能，同时哈希技术的应用可以减少跨模态检索在时间、空间上的消耗。

附图说明

构成本申请的一部分的说明书附图是用来提供对本申请的进一步理解，本申请的适宜性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于判别性关联最大化哈希的跨媒体检索总流程图；

图2为基于判别性关联最大化的哈希的目标函数的构造示意图；

图3为求解该目标函数的示意图。

具体实施方式

下面将结合附图和实施例，对本发明实施例中的技术方案进行清楚、完整地描述。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于判别性关联最大化哈希的跨模态检索方法，如图1所示，包括以下步骤：

步骤4：求解所述目标函数，得到图像、文本的投影到公用的海明空间的投影矩阵W₁和W₂、图像文本对的联合哈希码B以及分类器矩阵Q，用联合哈希码B作为该对图像和文本的哈希码；

步骤6：对于测试数据集O^test，根据步骤3求得的投影矩阵W₁和W₂，将测试数据集中每个样本的图像或文本投影到所述公用的海明空间，并利用学习到的哈希函数哈希函数f(V)＝sgn(W₁V)和g(T)＝sgn(W₂T)，可以直接求得测试数据集中图像和文本的哈希码；

步骤7：进行跨模态检索，基于哈希码，在所述训练数据集中检索与测试集中待检索样本相关的另一模态的对象。

所述基于判别性关联最大化哈希的目标函数为(如图2所示)：

所述基于判别性关联最大化哈希的目标函数的构造过程为：

步骤1：获取多模态数据集合O，所述多模态数据集合包括训练多模态数据子集O^train和测试多模态数据子集O^test；

假定每一个数据样本其中是图像的特征向量，是文本的特征向量，y_i∈{0,1}^c是类别标记，N是样本个数。每一个数据样本中包含一对图像文本对，它们的物理特性是不同的，但是它们具有相同的语义含义，属于同一类。

这里我们假定每一个样本都属于c个类的其中之一。则分别是图像和文本的数据特征矩阵。是标记矩阵，如果一个样本o_i中的图像和文本数据特征v_i和t_i都属于第j个类，则y_i的第j个元素为1，其余为0。

步骤2：将原始的异构空间的数据特征投影到一个通用的海明空间中。

步骤2-1：对于O^train中的每一个样本设定图像和文本两个模态的哈希函数f(V)＝sgn(W₁V)和g(T)＝sgn(W₂T)，将两个模态的数据从原始的异构空间投影进一个公用的海明空间中。

两个模态的哈希函数定义为：和我们采用了一种常用的哈希函数表示方法，则两个哈希函数的具体表示方式如下：f(V)＝sgn(W₁V)和g(T)＝sgn(W₂T)。其中sgn(·)是符号函数，它能将连续的数据离散化成二进制的哈希码；W₁和W₂分别是两个模态的投影矩阵。

步骤2-2：因为在原始状态时一个样本中的图像和文本是成对的，因此在投影之后的海明空间中应使一个样本中成对的图像和文本之间的关联最大化，其定义如下：

其中W₁和W₂是图像和文本的投影矩阵。

步骤2-3：为了保持数据的判别性特性，我们引入了线性判别分析(LDA)对文本模态的数据进行处理，并使其特性传递到图像模态，其定义如下：

其中S_w为类内相似度矩阵，S_b为类间相似度矩阵。

线性判别分析(LDA)将高维空间中的数据投影进一个最优的判别性空间，在投影后的空间中，不同类别的数据之间距离尽可能大，同类的数据之间的距离尽可能小。对文本模态的数据进行线性判别分析，定义S_w为类内相似度矩阵，S_b为类间相似度矩阵。我们对文本模态的数据进行线性判别分析，这能使投影到公用海明空间的文本模态的数据分布具有判别性，通过S_w和S_b将这个特性传递到图像模态，定义为：

其中tr(·)是矩阵的迹。该公式等价于：

步骤3：利用步骤(2-1)中定义的哈希函数，将投影到公用海明空间的图像和文本的数据特征量化为哈希码。

因为一个样本是由一对图像和文本组成的，它们具有相同的语义含义，因此我们引入一个辅助变量——两个模态的联合哈希码即一个样本中的一对图像和文本使用同一个哈希码。我们应尽量使产生哈希码的量化损失尽可能小，定义如下：

步骤4：加入类别标记作为监督信息，我们学习得到的联合哈希码可以很容易得用于分类，具体的，学习到的哈希码为B，为其增加的语义信息为Y，由于语义信息Y与哈希码B矩阵维度不一致，引入分类器矩阵Q进行转换。定义为：

步骤5：为了防止过拟合，对投影矩阵进行正则化约束，定义为：

增加正则化项防止过拟合，其定义为：

对以上五个步骤进行整合，我们得到一个完整的目标函数：

其中λ，μ₁，μ₂，β，α是平衡参数，γ是正则化参数(用来防止过拟合)。

我们的目的是通过求解上面的目标函数得到投影矩阵W₁和W₂、联合哈希码B。由于目标函数中含有多个未知变量，无法直接求解。因此本发明提出了一个迭代求解算法，固定其他变量，求解一个变量，这样我们最终可以得到最优解。此外，为了简便计算，我们将联合哈希码B的离散约束B∈{-1,1}^L×N放松为连续约束0≤B≤1。

根据基于判别性关联最大化哈希的目标函数，我们提出了一个迭代求解算法(如图3所示)，用于求解我们所需要的投影矩阵W₁和W₂、联合哈希码B和分类器矩阵Q。

步骤1：固定目标函数中的其他变量W₂、Q和B，求解投影矩阵W₁。目标函数变成：

通过对W₁求偏导数，得到的W₁的解：

W₁＝(μ₁BV^T+λW₂TV^T)(μ₁VV^T+λVV^T+γI)。

步骤2：通过固定其他变量W₁、Q和B，求解投影矩阵W₂。目标函数变成：

通过计算W₂的偏导数并令其等于0，得到W₂的解：

步骤3：固定其他变量W₁、W₂和Q，求解联合哈希码B。目标函数变成：

通过计算B的偏导数并令其等于0，得到B的解：

B＝(αQ^TQ+(μ₁+μ₂)I)^-1(αQ^TY+μ₁W₁V+μ₂W₂T)。

步骤4：固定其他变量W₁、W₂和B，求解分类器矩阵Q。目标函数变成：

通过计算Q的偏导数并令其等于0，得到Q的解：

Q＝(αYB^T)(αBB^T+γI)^-1。

最终，我们用联合哈希码B作为训练样本的哈希码，对于新来的测试样本，我们通过对哈希函数进行量化得到测试样本的哈希码。通过哈希码之间的相似度比较来进行跨媒体检索。

所述检索方法还包括：根据多模态数据集自带的类别标记评判检索正确率。这里我们采用常用的平均准确率(MAP)值来评估该方法的检索正确率。给定一个检索样本集合，其中每个检索样本的平均准确率(AP)定义为：其中是检索样本集中样本的总数，P(r)表示相关样本的数量与全部被检索样本数量的比率，如果第r个检索得到的样本与查询样本相关则δ(r)＝1，否则δ(r)＝0。所有样本的AP值的平均值即MAP。

实施例二

根据以上基于判别性关联最大化哈希的跨模态检索方法，本实施例提供了相应的目标函数构建方法，如图2所示，包括：

步骤5：加入类别标记作为监督信息；

步骤6：增加正则化项防止过拟合；

所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为：

所述步骤3包括：对文本模态数据进行线性判别分析处理，获取类内相似度矩阵S_w和类间相似度矩阵S_b，将该特性传递到图像模态数据，定义为：

所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为：

其中，B为联合哈希码。

步骤5类别标记定义为：

其中，Q为分类器矩阵。

所述步骤6正则化项定义为：

实验效果：

以Wiki图像文本数据集中的图像文本数据进行验证，检索准确率如表1所示。

表1 Wiki数据集上6种跨媒体检索(图像检索文本和文本检索图像)的检索正确率(MAP)比较

可以看出，本发明方法分别为文本和图像两个模态的数据学习到各自的哈希函数，将原始的数据特征投影到一个公用的海明空间，并对文本模态的数据进行线性判别分析(LDA)处理，使得投影之后的文本特征保持判别性，并且这一特性将被传递到图像模态。在公用的海明空间中，数据特征可以转变成哈希码，利用类别标记信息可以很容易得对哈希码进行分类。这些操作能获得良好的跨媒体检索效果，同时哈希技术的应用可以减少跨模态检索在时间、空间上的消耗。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于判别性关联最大化哈希的跨模态检索方法，其特征在于，包括以下步骤：

步骤4：求解所述目标函数，得到图像、文本的投影到公用的海明空间的投影矩阵W₁和W₂、图像文本对的哈希码B；

步骤6：对于测试多模态数据集O^test，根据步骤4求得的投影矩阵W₁和W₂，将测试数据集中每个样本的图像或文本投影到所述公用的海明空间，并通过哈希函数量化为哈希码；

所述步骤3中目标函数为：

s.t.B∈{-1,1}^L×N,W₁W₁ ^T＝I_k,

其中，分别是图像和文本的数据特征矩阵，是标记矩阵；λ，μ₁，μ₂，β，α是平衡参数，γ是正则化参数，S_w为类内相似度矩阵，S_b为类间相似度矩阵，Q为分类器矩阵，N是样本个数，c表示类别数。

2.如权利要求1所述的一种基于判别性关联最大化哈希的跨模态检索方法，其特征在于，所述步骤3包括：

s.t.W₁W₁ ^T＝I_k,

s.t.B∈{-1,1}^L,W₁W₁ ^T＝I_k,

步骤3-4：加入类别标记作为监督信息，对哈希码进行分类：

s.t.B∈{-1,1}^L

步骤3-5：增加正则化项防止过拟合，其定义为：

步骤3-6：将步骤3-1至3-5整合，得到目标函数。

3.如权利要求2所述的一种基于判别性关联最大化哈希的跨模态检索方法，其特征在于，所述步骤4目标函数求解方法为：

步骤4-3：固定目标函数中的其他项，求解联合哈希码B；

步骤4-4：固定目标函数中的其他项，求解分类器矩阵Q。

4.如权利要求1所述的一种基于判别性关联最大化哈希的跨模态检索方法，其特征在于，所述检索方法还包括：根据多模态数据集自带的类别标记评判检索正确率。

5.一种用于跨模态检索的目标函数构建方法，其特征在于，包括：

步骤5：加入类别标记作为监督信息；

步骤6：增加正则化项防止过拟合；

6.如权利要求5所述的一种用于跨模态检索的目标函数构建方法，其特征在于，所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为：

s.t.W₁W₁ ^T＝I_k,

7.如权利要求6所述的一种用于跨模态检索的目标函数构建方法，其特征在于，所述步骤3包括：对文本模态数据进行线性判别分析处理，获取类内相似度矩阵S_w和类间相似度矩阵S_b，将该特性传递到图像模态数据，定义为：

S_w为类内相似度矩阵，S_b为类间相似度矩阵。

8.如权利要求6或7所述的一种用于跨模态检索的目标函数构建方法，其特征在于，所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为：

s.t.B∈{-1,1}^L,W₁W₁ ^T＝I_k,

其中，B为联合哈希码。

9.如权利要求8所述的一种用于跨模态检索的目标函数构建方法，其特征在于，步骤5类别标记定义为：

s.t.B∈{-1,1}^L

其中，Q为分类器矩阵，Y表示标记矩阵。

10.如权利要求9所述的一种用于跨模态检索的目标函数构建方法，其特征在于，所述步骤6正则化项定义为：