CN109271486A

CN109271486A - 一种相似性保留跨模态哈希检索方法

Info

Publication number: CN109271486A
Application number: CN201811097048.3A
Authority: CN
Inventors: 董西伟; 杨茂保; 孙丽; 董小刚; 尧时茂; 王玉伟; 邓安远; 邓长寿
Original assignee: Jiujiang University
Current assignee: Jiujiang University
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-01-25
Anticipated expiration: 2038-09-19
Also published as: CN109271486B

Abstract

一种相似性保留跨模态哈希检索方法，该方法包括以下步骤：（1）基于相似性保留策略的目标函数构建；（2）目标函数的求解；（3）生成查询样本和检索样本集中的样本二进制哈希编码；（4）计算查询样本到检索样本集中各个样本的汉明距离；（5）使用跨模态检索器完成对查询样本的检索。本发明方法在进行哈希学习时不仅可以充分保留模态间样本的相似性，还可以充分保留模态内样本的相似性，从而使学习得到的汉明空间具有更强的鉴别能力，更有利于完成跨模态检索。

Description

一种相似性保留跨模态哈希检索方法

技术领域

本发明涉及一种相似性保留跨模态哈希检索方法。

背景技术

在当今社会的各行各业中，大量用户积累了海量的用户数据(比如搜索引擎Chrome拥有的数据量超过100PB)，并且数据量还在以指数级的趋势增长，大数据时代接踵而至。大数据在互联网金融、医疗、教育、军事和交通等行业中都具有非常重要的作用，比如，将大数据与机器学习技术结合，能够为金融投资、市场决策等提供可靠的依据。如今的大数据具有以下特性：(1)体积大，数据量以PB为单位；(2)维度高，数据特征具有数以千计的维度；(3)模态多，数据种类多、形态多样化，包括图像、文本、音频和视频等形式。大数据的这些特点给机器学习带来了严峻的挑战。面对这种现状，如何合理地利用这些大数据，从中提取出有价值的信息，并为实际的项目工作提供依据是亟待解决的问题。

信息检索技术可以为用户检索出有价值的信息，在信息检索领域，相似性搜索是一个研究热点，而近似最近邻搜索(Approximate Nearest Neighbor，ANN)因其搜索速度快而备受关注。ANN搜索方法主要包括树方法和哈希学习方法，两种方法各具特点。具体地，基于树的方法具有如下特性：(1)递归地划分数据，分而治之；(2)查询时间复杂度为O(logn)；(3)随着数据维度的增加，基于树的ANN搜索性能会逐渐的下降；(4)需要存储树结构，存储开销很大；(5)运行的时候，需要保存原始数据，增加内存的开销。哈希学习方法则具有比较优秀的特性，包括：(1)数据库中每一项都用二进制串表示，极大地降低数据存储量和内存空间；(2)查询时间复杂度为常量O(1)或亚线性。因此，哈希学习方法在实际中得到广泛地应用。

跨模态哈希主要用于解决多模态数据之间的相互检索问题，例如，用图像搜索文字，或者用文字搜索图像等问题。跨模态哈希算法需要对不同模态的数据进行哈希编码，生成紧凑的二进制串，然后再进行不同模态数据之间的相互检索。跨模态哈希算法不仅需要考虑同一模态数据之间的关联性，而且还需要考虑不同模态数据之间的关联性。近些年不少跨模态检索哈希方法相继被提出。例如，Bronstein等人提出了跨模态相似性搜索哈希(Cross Modality Similarity Search Hashing，CMSSH)方法，CMSSH方法将每一位二进制编码对应的哈希函数看成一个弱分类器，通过AdaBoost提升算法进行哈希函数的学习。Kuma等人提出了跨视图哈希(Cross-View Hashing，CVH)方法，CVH方法通过最小化语义相似性与汉明距离之差，为不同的模态数据学习各自的哈希函数。Song等人提出了媒体间哈希(Inter-Media Hashing，IMH)方法，IMH方法通过保持媒体内与媒体间的一致性去寻找公共的汉明空间，然后再使用线性回归算法为不同的模态学习各自对应的哈希函数。Ding等人提出了协同矩阵分解哈希(Collective Matrix Factorization Hashing，CMFH)方法，CMFH方法通过协同矩阵分解为不同的模态学习共同的语义表示，然后通过量化方法生成统一的二进制哈希编码。Zhu等人提出了线性跨模态哈希(Linear Cross-Modal Hashing，LCMH)方法，LCMH方法分别对各个模态内的数据使用K-means聚类算法，产生K个聚类点，根据模态内的数据点与这K个聚类点之间的距离重构数据的特征空间，再经过特征值分解求取特征向量，得到各个模态所对应的哈希函数。Zhou等人提出了潜在语义稀疏哈希(LatentSemantics Sparse Hashing，LSSH)方法，LSSH方法结合稀疏编码与矩阵分解技术，为不同模态的特征学习共同的潜在语义表示，然后通过迭代优化算法对目标函数进行最优化求解。Zhang等人基于语义关联最大化(Semantic Correlation Maximization，SCM)方法，通过最大化语义关联性，完成哈希函数的学习，提出了特征分解法SCM_orth和序列学习法SCM_seq。Lin等人提出了语义保留哈希(Semantics Preserving Hashing，SePH)方法，SePH方法通过最小化K-L散度，将相似性矩阵转换成概率分布的计算，对各个样本对应的二进制哈希编码串进行概率估算，然后通过核函数回归算法学习各个模态所对应的哈希函数。

在将图像模态和文本模态的数据从原始特征空间映射到其它特征空间时，原始数据的一些特征会不可避免地受到损失。对于基于哈希学习的跨模态检索，当将图像模态和文本模态的数据从原始特征空间映射到汉明空间时，原始数据中鉴别信息的有效保留和挖掘，对于有效完成跨模态检索任务具有至关重要的作用。对于图像模态和文本模态的样本来说，不同模态的样本的相似性关系，以及同一模态的样本的相似性关系，是影响跨模态检索的关键因素。不少已有的跨模态哈希学习方法，对于模态间和模态内样本的相似性关系还没有很好地进行处理，有的方法只注重保留模态间样本的相似性关系，有的方法只注重保留模态内样本的相似性关系。这会使得学习得到的汉明空间的鉴别性能受到不利影响。此外，不少方法对哈希编码每一位上所蕴含信息的冗余问题没有进行充分地考虑，使得学习得到的哈希编码不仅具有冗余性还缺少足够的鉴别能力。因此，在跨模态哈希学习中同时注重保留模态间和模态内样本的相似性关系，并使哈希编码每一位上的信息冗余尽可能地小，对于有效地促进跨模态检索性能的提升具有十分重要的意义。

发明内容

本发明其目的就在于提供一种相似性保留跨模态哈希检索方法，解决了现有的不少方法对模态内和模态间样本的相似性保留不充分，并且对哈希编码每位上的冗余信息消减不充分的问题，使得学习得到的哈希编码具有良好的鉴别能力。

为实现上述目的而采取的技术方案是，一种相似性保留跨模态哈希检索方法，假设n个对象在图像模态和文本模态的特征分别为和其中，d₁和d₂分别表示图像模态和文本模态特征向量的维度，和分别表示第i个对象在图像模态和文本模态的特征；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设由n个对象的类别标记构成的标记矩阵为L＝[l₁,l₂,…,l_n]∈{0,1}^l×n，其中，l_i(i＝1,2,…,n)表示第i个对象的类别标记信息，l为类别数量；假设跨模态相似性矩阵为S∈{0,1}^n×n，其中，S_ij表示图像模态中第i个样本与文本模态中第j个样本的相似性；如果图像模态中第i个样本与文本模态中第j个样本是相似的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0；本发明方法包括以下步骤：

(1)基于相似性保留策略的目标函数构建：使用基于模态间相似性保留策略和模态内相似性保留策略设计的目标函数得到n个对象图像模态和文本模态特征数据在汉明空间中的二进制哈希编码U和V，分别对应于图像模态和文本模态的哈希投影矩阵P₁和P₂，以及两个系数矩阵W₁和W₂；

(2)目标函数的求解：鉴于目标函数的非凸性质，通过交替更新的方式得到目标函数的解U、V、P₁、P₂、W₁和W₂，即交替地求解如下四个子问题：固定U、V、W₁和W₂，求解P₁和P₂；固定U、V、P₁和P₂，求解W₁和W₂；固定V、P₁、P₂、W₁和W₂，求解U；固定U、P₁、P₂、W₁和W₂，求解V；

(3)生成查询样本和检索样本集中的样本二进制哈希编码：基于求解得到的图像模态和文本模态的哈希投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码；

(4)计算查询样本到检索样本集中各个样本的汉明距离：基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离；

(5)使用跨模态检索器完成对查询样本的检索：使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。

所述的步骤(1)中基于模态间相似性保留策略和模态内相似性保留策略设计的目标函数形式如下：

其中，α、β、γ和η为非负的平衡因子，c为二进制哈希编码的长度，I为单位矩阵，1_n×1表示元素全部为1的列向量，u_i为图像模态第i个样本的二进制哈希编码，v_j为文本模态第j个样本的二进制哈希编码，||·||_F表示矩阵的Frobenius范数，(·)^T表示矩阵的转置运算。

所述的步骤(2)中通过交替求解的方式得到目标函数的解U、V、P₁、P₂、W₁和W₂，具体为，交替地求解如下四个子问题：

(1)固定U、V、W₁和W₂，求解P₁和P₂；当固定二进制哈希编码U和V，以及系数矩阵W₁和W₂后，公式(1)中的目标函数简化为关于哈希投影矩阵P₁和P₂的子问题，即：

(2)固定U、V、P₁和P₂，求解W₁和W₂；当固定二进制哈希编码U和V、以及哈希投影矩阵P₁和P₂后，公式(1)中的目标函数简化为关于系数矩阵W₁和W₂的子问题，即：

(3)固定V、P₁、P₂、W₁和W₂，求解U；当固定文本模态二进制哈希编码V，哈希投影矩阵P₁和P₂，以及系数矩阵W₁和W₂后，公式(1)中的目标函数简化为关于图像模态二进制哈希编码U的子问题，即：

(4)固定U、P₁、P₂、W₁和W₂，求解V；当固定图像模态二进制哈希编码U，哈希投影矩阵P₁和P₂，以及系数矩阵W₁和W₂后，公式(1)中的目标函数简化为关于文本模态二进制哈希编码V的子问题，即：

所述的步骤(3)中基于求解得到的图像模态和文本模态的哈希投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码，具体为，假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量；查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

所述的步骤(4)中基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离，具体为，使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离，使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

所述的步骤(5)中使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索，具体为，对计算得到的汉明距离(或者)按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。

有益效果

与现有技术相比本发明具有以下优点。

1.本发明方法在进行哈希学习时不仅可以充分保留模态间样本的相似性，还可以充分保留模态内样本的相似性，从而使学习得到的汉明空间具有更强的鉴别能力，更有利于完成跨模态检索；

2.本发明方法针对哈希编码的冗余性进行了充分考虑并通过实施正交约束来最小化哈希编码每一位上的冗余，使得学习得到的哈希编码能够包含更多的鉴别信息，进而使得跨模态检索性能得到有效提升。

附图说明

以下结合附图对本发明作进一步详述。

图1为本发明提出的相似性保留跨模态哈希检索方法工作流程图。

具体实施方式

一种相似性保留跨模态哈希检索方法，假设n个对象在图像模态和文本模态的特征分别为和其中，d₁和d₂分别表示图像模态和文本模态特征向量的维度，和分别表示第i个对象在图像模态和文本模态的特征；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设由n个对象的类别标记构成的标记矩阵为L＝[l₁,l₂,…,l_n]∈{0,1}^l×n，其中，l_i(i＝1,2,…,n)表示第i个对象的类别标记信息，l为类别数量；假设跨模态相似性矩阵为S∈{0,1}^n×n，其中，S_ij表示图像模态中第i个样本与文本模态中第j个样本的相似性；如果图像模态中第i个样本与文本模态中第j个样本是相似的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0；如图1所示，包括以下步骤：

具体实施过程主要包括以下步骤：

(1)基于相似性保留策略的目标函数构建

在本发明方法中，跨模态哈希学习的目的是利用图像模态和文本模态的特征数据X⁽¹⁾和X⁽²⁾，以及对象的类别标记信息，学习图像模态和文本模态的哈希函数f⁽¹⁾(x⁽¹⁾)∈{-1,+1}^c×1和f⁽²⁾(x⁽²⁾)∈{-1,+1}^c×1，其中，c是二进制哈希编码可调节的长度。假设U＝[u₁,u₂,…,u_n]∈{-1,+1}^c×n和V＝[v₁,v₂,…,v_n]∈{-1,+1}^c×n是利用n个对象的图像模态和文本模态的特征数据，以及相应的哈希函数生成的哈希空间中的二进制哈希编码，其中，u_i和v_i分别表示第i(i＝1,2,…,n)个对象在图像模态和文本模态的哈希编码。为了使哈希空间中的二进制哈希编码U和V具有良好的鉴别能力，对于哈希编码U和V来说，希望其能够保留S中的相似信息，即若S_ij＝1，则u_i与v_j、u_j与v_i的汉明距离尽量小，反之两者的距离尽量大。

为便于说明，仅公式化描述u_i与v_j的关系，u_j与v_i的关系可以类似地进行公式化描述。对于成对的二进制哈希编码{u_i,v_j}，基于两者的内积定义哈希编码u_i与v_j之间的相似性关系，如公式(1)所示：

其中，λ＞0是一个可调节的比例因子，c是预先设定的哈希编码长度，＜·,·＞表示向量的内积。使用Sigmoid函数将Θ_ij从原始区间投影到(0,1)范围，可得：

基于A_ij定义跨模态相似矩阵S的后验概率，可得：

根据概率论中似然函数估计法，将公式(3)的负对数表示为J ₁＝：

其中，const表示常量。

最小化公式(4)可以实现在图像模态和文本模态的哈希编码U和V中保留跨模态相似性。具体来说，从公式(4)可以看出，若S_ij＝1，则Θ_ij需要尽可能地大，即，u_i与v_j的内积需要尽量大，也就是说，二进制哈希码u_i与v_j需要尽量相同，它们之间的汉明距离需要尽量小；反之，若S_ij＝0，则Θ_ij需要尽量小，二进制哈希码u_i与v_j之间的汉明距离需要尽可能地小。

一个有效的跨模态检索方法不仅需要考虑模态间相似性，同时还需要考虑模态内的近邻结构，因此，模态内相似性也需要进行保留。对于单个模态来说，该模态的哈希编码是该模态原始特征向量的某种变换。哈希编码模态内相似性保留问题可以作为分类问题来处理，即，最优的哈希编码也能够很好地用于完成分类。假设将图像模态特征X⁽¹⁾和文本模态特征X⁽²⁾映射为哈希编码U和V的投影矩阵分别为和对哈希编码U和V分类的系数矩阵分别为和基于l₂损失，最小化如下的函数可以达到保留模态内相似性的目的：

应用于跨模态检索任务的哈希编码在满足能够保留模态间和模态内相似性的同时，还希望它具有以下特性：

(1)独立性。若将哈希编码的每一位看作为一个属性，则希望属性之间的冗余尽可能地小，也就是说，希望位与位之间是相互独立的。该特性的公式化描述如公式(6)所示：

UU^T＝nI,VV^T＝nI， (6)

其中，I为单位矩阵。

(2)平衡性。也就是说，希望每一位哈希编码是+1和-1的概率相等，各为50％。这一约束可以最大化每一位提供的信息。该特性的公式化描述如公式(7)所示：

U1_n×1＝0,V1_n×1＝0， (7)

其中，1_n×1表示元素全部为1的列向量。

综合以上分析，相似性保留跨模态哈希检索方法的整体目标函数设计为：

其中，α、β、γ和η为非负的平衡因子。

(2)目标函数的求解

目标函数公式(8)中包含六个待求解的变量，即：图像模态和文本模态的哈希编码U和V，图像模态和文本模态的哈希投影矩阵P₁和P₂，系数矩阵W₁和W₂。公式(8)中的目标函数对于六个待求解的变量是非凸的，因此，无法同时得到六个待求解的变量的解析解。公式(8)中待求解的未知变量可以通过交替地求解如下四个子问题得到解，即：固定U、V、W₁和W₂，求解P₁和P₂；固定U、V、P₁和P₂，求解W₁和W₂；固定V、P₁、P₂、W₁和W₂，求解U；固定U、P₁、P₂、W₁和W₂，求解V。

(a)固定U、V、W₁和W₂，求解P₁和P₂

当固定二进制哈希编码U和V，以及系数矩阵W₁和W₂后，公式(8)中的目标函数简化为关于哈希投影矩阵P₁和P₂的子问题，即：

公式(9)中的问题为标准的偏最小二乘回归问题。分别对J关于P₁和P₂求偏导数并令导数等于0，可得：

对公式(10)和公式(11)进行简单推导，可得：

P₁＝(X⁽¹⁾X^(1)T+γI)^-1X⁽¹⁾U^T， (12)

P₂＝(X⁽²⁾X^(2)T+γI)^-1X⁽²⁾V^T， (13)

其中，(·)^-1表示矩阵的逆矩阵。

(b)固定U、V、P₁和P₂，求解W₁和W₂

当固定二进制哈希编码U和V、以及哈希投影矩阵P₁和P₂后，公式(8)中的目标函数简化为关于系数矩阵W₁和W₂的子问题，即：

公式(14)中的问题也是标准的偏最小二乘回归问题。分别对J关于W₁和W₂求偏导数并令导数等于0，可得：

对公式(15)和公式(16)进行简单推导，可得：

W₁＝(UU^T+(γI)/α)^-1UL^T， (17)

W₂＝(VV^T+(γI)/α)^-1VL^T。 (18)

(c)固定V、P₁、P₂、W₁和W₂，求解U

当固定文本模态二进制哈希编码V，哈希投影矩阵P₁和P₂，以及系数矩阵W₁和W₂后，公式(8)中的目标函数简化为关于图像模态二进制哈希编码U的子问题，即：

为了方便求解，本发明方法将离散哈希变量U松弛为连续变量进行求解，因此，公式(19)中的目标函数转化为：

对J(＝U)关于U求导数可得：

为了求得U的最优解，使用梯度下降法迭代更新U，即，通过U(t+1)＝U(t)+ΔU(t)迭代更新U。具体地，根据泰勒展开式，有：

于是，欲满足J(U+ΔU)＜J(U)，可以选择：

其中，步长ω₁是一个预先定义的比较小的常数。当连续变量U求得之后，使用公式U＝sign(U)得到离散的哈希变量U，其中，sign(·)为符号函数，即：当x≥0时，sign(x)＝+1，当x＜0时，sign(x)＝-1。

(d)固定U、P₁、P₂、W₁和W₂，求解V

当固定图像模态二进制哈希编码U，哈希投影矩阵P₁和P₂，以及系数矩阵W₁和W₂后，公式(8)中的目标函数简化为关于文本模态二进制哈希编码V的子问题，即：

类似于对离散变量U的求解，同样将离散哈希变量V松弛为连续变量进行求解。当连续变量V求得之后，使用公式V＝sign(V)得到离散的哈希变量V。

(3)生成查询样本和检索样本集中的样本二进制哈希编码

假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量。查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

(4)计算查询样本到检索样本集中各个样本的汉明距离

对于图像模态的查询样本使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离。对于文本模态的查询样本使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

(5)使用跨模态检索器完成对查询样本的检索

对计算得到的汉明距离(或者按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。

以下结合具体实验对本发明的有益效果进行说明。

MIRFLICKR-25K数据集中包含从Flickr网站收集的25000幅图像，并且每一幅图像附加有24种文本标签中的若干种文本标签，因此，可以认为MIRFLICKR-25K数据集是一个多标签数据集。在实验中只选取至少包含20个文本标签的样本，构成20015对图像-文本样本。对于每对图像-文本，每幅图像用512维的GIST特征向量表示，文本的特征用1386维的词袋向量表示。在实验中随机选择1000对图像-文本样本用于构造查询样本集，随机选择5000对图像-文本样本用于训练跨模态检索模型。

在实验中，用平均精度均值(MeanAverage Precision，MAP)衡量跨模态检索方法的性能。要计算MAP需要首先计算平均精度(Average Precision，AP)。假设某个查询样本在进行跨模态检索时返回R个检索到的样本，对应于这个查询样本的平均精度AP定义为：

在公式(25)中，P(r)表示前r个被检索到的样本的精度，即前r个被检索到的样本中有多少比例的样本是真正与查询样本相关的。对于δ(r)，当第r个被检索到的样本真正与查询样本相关时，δ(r)＝1，反之，δ(r)＝0。当获取了所有查询样本的平均精度AP后，计算这些平均精度AP的均值即可得到平均精度均值MAP。

在实验中，本发明方法中的参数α、β、γ和η采用5折交叉验证确定最优的值。对于其它方法中的参数，参照各个方法文献中所采用的参数设置方式进行参数设置。实验中报告的结果均为10次随机实验结果的平均值。

与本发明方法进行对比的方法分别为：典型相关分析(CanonicalCorrelationAnalysis，CCA)方法、跨视图哈希(Cross-View Hashing，CVH)方法、媒体间哈希(Inter-Media Hashing，IMH)方法和潜在语义稀疏哈希(Latent Semantic SparseHashing，LSSH)方法。表1总结了本发明提出的方法和相关方法在MIRFLICKR-25K数据集上进行跨模态检索时的平均精度均值MAP。在表1中，Img2Txt和Txt2Img分别表示用图像检索文本的任务和用文本检索图像的任务。从表1中可以看出，对于图像检索文本和文本检索图像这两种检索任务，本发明方法的检索性能在四种哈希编码长度下都胜过对比方法。具体来说，与其它对比方法相比，对于Img2Txt任务，本发明方法在16bits、32bits、64bits和128bits上的MAP至少提升了0.0152(＝0.3121-0.2969)、0.022(＝0.3285-0.3065)、0.0253(＝0.3371-0.3118)和0.0196(＝0.3442-0.3246)；对于Txt2Img任务，本发明方法在16bits、32bits、64bits和128bits上的MAP至少提升了0.0242(＝0.3925-0.3683)、0.0278(＝0.4257-0.3979)、0.0273(＝0.4618-0.4345)和0.0351(＝0.4969-0.4618)。这说明本发明提出的相似性保留跨模态哈希检索方法是有效的。

表1 MIRFLICKR-25K数据集上各方法的MAP

本发明还包括：模态间样本相似性保留策略，模态内样本相似性保留策略，以及哈希编码冗余性最小化方案。

所述的模态间样本相似性保留策略：对于跨模态检索任务来说，在具体的检索过程中需要面对来自不同模态性质差异很大的异质数据，有效地消除不同模态数据的异质性，充分地从不同模态数据的复杂关系中挖掘出它们之间本质的联系，能够促进跨模态检索性能的提升。为了从不同模态的数据中充分地挖掘鉴别信息，本发明方法基于内积定义不同模态样本的哈希编码的相似性关系，并利用Sigmoid函数将这种相似性关系建模为概率模型，然后基于跨模态相似矩阵的后验概率完成模态间相似性的保留，进而达到从跨模态异质数据中有效挖掘鉴别信息的目的。

所述的模态内样本相似性保留策略：对于模态内部的样本来说，样本的标记信息能够有效地反映它们之间的近邻结构和相似性关系。对于单个模态来说，该模态的哈希编码是该模态的原始特征数据从原始特征空间到汉明空间的某种变换。为了使哈希编码在模态内部保留样本之间的相似性，本发明方法借助于样本的标记信息，通过利用完成分类任务的线性回归模型来完成模态内相似性的保留。

所述的哈希编码冗余性最小化方案：对于哈希编码来说，若将哈希编码的每一位看作为一个属性，则希望不同属性之间的冗余尽可能地小，也就是说，希望位与位之间能够是相互独立的。本发明方法通过对哈希编码的不同位实施正交约束来达到这个目的。

Claims

1.一种相似性保留跨模态哈希检索方法，假设n个对象在图像模态和文本模态的特征分别为和其中，d₁和d₂分别表示图像模态和文本模态特征向量的维度，和分别表示第i个对象在图像模态和文本模态的特征；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设由n个对象的类别标记构成的标记矩阵为L＝[l₁,l₂,…,l_n]∈{0,1}^l×n，其中，l_i(i＝1,2,…,n)表示第i个对象的类别标记信息，l为类别数量；假设跨模态相似性矩阵为S∈{0,1}^n×n，其中，S_ij表示图像模态中第i个样本与文本模态中第j个样本的相似性；如果图像模态中第i个样本与文本模态中第j个样本是相似的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0；其特征在于，包括以下步骤：

2.根据权利要求1所述的一种相似性保留跨模态哈希检索方法，其特征在于，所述的步骤(1)中基于模态间相似性保留策略和模态内相似性保留策略设计的目标函数形式如下：

3.根据权利要求1所述的一种相似性保留跨模态哈希检索方法，其特征在于，所述的步骤(2)中通过交替求解的方式得到目标函数的解U、V、P₁、P₂、W₁和W₂，具体为，交替地求解如下四个子问题：

4.根据权利要求1所述的一种相似性保留跨模态哈希检索方法，其特征在于，所述的步骤(3)中基于求解得到的图像模态和文本模态的哈希投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码，具体为，假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量；查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

5.根据权利要求1所述的一种相似性保留跨模态哈希检索方法，其特征在于，所述的步骤(4)中基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离，具体为，使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离，使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

6.根据权利要求1所述的一种相似性保留跨模态哈希检索方法，其特征在于，所述的步骤(5)中使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索，具体为，对计算得到的汉明距离(或者)按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。