CN109657112A - 一种基于锚点图的跨模态哈希学习方法 - Google Patents

一种基于锚点图的跨模态哈希学习方法 Download PDF

Info

Publication number
CN109657112A
CN109657112A CN201811439568.8A CN201811439568A CN109657112A CN 109657112 A CN109657112 A CN 109657112A CN 201811439568 A CN201811439568 A CN 201811439568A CN 109657112 A CN109657112 A CN 109657112A
Authority
CN
China
Prior art keywords
sample
hash
retrieval
image modalities
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811439568.8A
Other languages
English (en)
Other versions
CN109657112B (zh
Inventor
董西伟
邓安远
胡芳
贾海英
周军
孙丽
杨茂保
王海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiujiang University
Original Assignee
Jiujiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiujiang University filed Critical Jiujiang University
Priority to CN201811439568.8A priority Critical patent/CN109657112B/zh
Publication of CN109657112A publication Critical patent/CN109657112A/zh
Application granted granted Critical
Publication of CN109657112B publication Critical patent/CN109657112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于锚点图的跨模态哈希学习方法,特征是该方法包括以下步骤:(1)使用基于锚点图技术设计的目标函数得到个对象在图像模态和文本模态的二进制哈希编码,以及图像模态和文本模态的投影矩阵;(2)鉴于目标函数的非凸性质,通过交替更新的方式求解目标函数中的未知变量;(3)基于求解得到的图像模态和文本模态的投影矩阵,为查询样本和检索样本集中的样本生成二进制哈希编码;(4)基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离;(5)使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。该方法能够基于锚点图技术快速得到真实相似度矩阵的近似矩阵。

Description

一种基于锚点图的跨模态哈希学习方法
技术领域
本发明涉及一种基于锚点图的跨模态哈希学习方法。
背景技术
随着信息技术的迅速发展,人类社会已经步入大数据时代,时时刻刻都会有来自于不同领域、不同应用的海量数据产生。面对***式增长的数据,如何从中快速地检索出所需要的信息,从而确保数据的有效使用,已经成为大数据时代亟待解决并且非常具有挑战性的问题。
最近邻搜索,又称为相似性搜索,在诸如文档检索、物体识别和近似图像检测等诸多应用中扮演着重要的角色。在众多用于近似近邻搜索的方法中,基于哈希的搜索(检索)方法在近些年受到越来越多的关注。基于哈希的搜索方法能够将高维的特征数据映射成紧凑的二进制哈希编码并使得相似特征数据的哈希编码相同或者相似。例如,局部敏感哈希(Locality Sensitive Hashing,LSH)方法可以使高维空间中距离很近的两点,在经过哈希函数对这两点进行哈希编码后,它们的哈希编码有很大的概率是一样的,反之,若两点之间的距离较远,则它们的哈希编码相同的概率会很小。基于哈希的搜索方法具有存储要求低搜索效率高的优点。
跨模态哈希检索主要用于解决不同模态数据之间的相互检索问题,例如,用图像搜索文本、或者用文本搜索图像等。跨模态哈希检索方法需要对不同模态的数据进行哈希编码,生成紧凑的二进制哈希编码,然后基于生成的二进制哈希编码完成不同模态数据之间的相互检索。Bronstein等人较早提出了跨模态哈希方法,他们提出的方法可以确保两个相关的数据点具有相似的哈希编码,反之具有不相似的哈希编码。但是他们的提出的这个方法仅仅注重保留模态间的相关性,而忽视了模态内相似性的保持。Kumar等人提出了一种称为跨视图哈希(Cross-View Hashing,CVH)的方法将传统的谱哈希技术从单模态数据扩展到多模态数据,该方法可以学***衡。Yu等人提出了鉴别成对字典哈希(Discriminative Coupled Dictionary Hashing,DCDH)方法,该方法首先联合使用不同模态的数据和类别信息来学习鉴别的成对字典,然后基于不同模态的数据在相应字典上的稀疏编码来学习哈希函数并将稀疏编码换成紧凑的二进制哈希编码。DCDH方法不仅可以保持模态内的相似性和模态间的相关性,还可以使多模态数据的稀疏表示具有很好的可解释性。Zhen等人提出了多模态潜在二进制嵌入(Multimodal Latent Binary Embedding,MLBE)方法,该方法使用概率生成模型来编码每个模态数据内部的相似性和不同模态数据间的相关性。但是MLBE方法不需要哈希编码的不同比特之间相互独立,这使得哈希编码的不同比特具有很高的冗余。Zhang等人提出了协同子空间图哈希(Collaborative Subspace Graph Hashing,CSGH)方法,该方法是一种两阶段协同学习架构,它首先使用每个模态特定的变换矩阵将相应模态的数据投影到潜在子空间,然后通过一个共享变换矩阵将每个模态的子空间连接成一个公共汉明空间。CSGH方法分别通过拉普拉斯正则和基于图的相关性约束来考虑特定模态的近邻结构和模态间的相关性。
跨模态哈希检索方法的目的是将不同模态的高维特征数据映射到低维汉明空间,以实现基于汉明空间的二进制哈希编码完成快速且准确的信息检索。跨模态哈希检索方法,因为其基于二进制哈希编码完成检索任务,其检索时效可以得到很好的保证。但是,对于检索任务来说,检索的准确性是另外一个方面的重要问题。当将数据从原始的高维特征空间映射到低维汉明空间时,原始数据的信息会不可避免地受到损失。因此,在进行哈希学习时,特别是基于大规模数据集进行哈希学习时,如何充分地保留原始特征的有益信息是跨模态哈希学习方法需要充分考虑的重要问题。当前,不少跨模态哈希学习方法基于数据点的图结构来完成模态内相似性和模态间相关性的保持。但是,当数据集的样本数量较大时,构建数据点的图结构需要很大的时间开销。因此,在基于数据点的图结构来保持特征数据中的有用信息时,设计能够快速有效地构建图结构的方案对于高效地进行跨模态哈希学习具有重要的意义。此外,对于每个模态的特征数据来说,不同的特征具有不同的鉴别能力,并且不同的特征之间存在冗余信息。因此,在哈希学习过程中注重对特征的选择利用对于实现更精准的哈希检索同样具有重要意义。
发明内容
本发明其目的就在于提供一种基于锚点图的跨模态哈希学习方法,解决了已有的跨模态哈希学习方法还未彻底解决在大规模数据集上基于图结构来保持特征数据中的有益信息的问题,以及将原始特征数据从高维特征空间映射到低维汉明空间时涉及到的鉴别特征选择问题,提出了一种基于锚点图的跨模态哈希学习方法并应用于包含图像模态和文本模态的跨模态检索任务。
为实现上述目的而采取的技术方案是,一种基于锚点图的跨模态哈希学习方法,建立 n个对象在图像模态和文本模态的特征分别为其中,分别表示第i个对象在图像模态和文本模态的特征向量,i=1,2,…,n,d1和d2分别表示图像模态和文本模态特征向量的维数;同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的,即满足 假设分别为图像模态和文本模态样本的邻接矩阵;矩阵 A(1)中的元素和矩阵A(2)中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度;假设S∈{0,1}n×n为两个模态中样本之间的语义相关性矩阵,其中, Sij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性;如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别),则Sij=1,否则 Sij=0;该方法包括以下步骤:
(1)使用基于锚点图技术设计的目标函数得到n个对象在图像模态和文本模态的二进制哈希编码B1和B2,以及图像模态和文本模态的投影矩阵P1和P2
(2)鉴于目标函数的非凸性质,通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,即交替地求解如下三个子问题:固定B1和B2,求解P1和P2;固定B2、P1和P2,求解B1;固定B1、P1和P2,求解B2
(3)基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码;
(4)基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离;
(5)使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。
所述步骤(1)中的基于锚点图技术设计的目标函数形式如下:
其中,α、β、γ和λ为非负的平衡因子,k为二进制哈希编码的长度,1n×1表示元素全部为1的列向量,L(1)、L(2)和L均为拉普拉斯矩阵,tr(·)表示矩阵的迹,||·||F表示矩阵的Frobenius范数,(·)T表示矩阵的转置,sign(·)为符号函数。
所述步骤(2)中的通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,具体为,交替地求解如下三个子问题:
(1)固定B1和B2,求解P1和P2。当固定二进制哈希编码B1和B2后,公式(1)所示的目标函数简化为关于投影矩阵P1和P2的子问题,即:
(2)固定B2、P1和P2,求解B1;当固定二进制哈希编码B2,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B1的子问题,即:
(3)固定B1、P1和P2,求解B2;当固定二进制哈希编码B1,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B2的子问题,即:
所述步骤(3)中的基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码,具体为,假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中,表示检索样本集中样本的数量;查询样本和检索样本集中样本的二进制哈希编码分别为:其中,
所述步骤(4)中的基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离,具体为,使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离;使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。
所述步骤(5)中的使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索,具体是对计算得到的汉明距离(或者)按照从小到大的顺序进行排序,然后,在检索样本集中取前K个最小距离对应的样本作为检索结果。
有益效果与现有技术相比本发明具有以下优点。
1、本发明方法能够更好地适用于在大规模数据集上进行跨模态哈希学习; 2、本发明方法基于锚点图技术可以为大规模数据集中的样本点快速有效地构建用于保持特征数据近邻结构的相似度矩阵;
3、本发明方法通过对用于将原始特征数据从高维特征空间投影到低维汉明空间的投影矩阵使用基于l2,1范数的正则项进行约束,可以有效地选择有益于生成优秀哈希编码的特征。
附图说明
下面结合附图对本发明作进一步的详细说明。
图1是本发明提出的基于锚点图的跨模态哈希学习方法的工作流程图。
具体实施方式
一种基于锚点图的跨模态哈希学习方法,建立n个对象在图像模态和文本模态的特征分别为其中,分别表示第i个对象在图像模态和文本模态的特征向量,i=1,2,…,n,d1和d2分别表示图像模态和文本模态特征向量的维数;同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的,即满足假设分别为图像模态和文本模态样本的邻接矩阵;矩阵A(1)中的元素和矩阵A(2)中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度;假设S∈{0,1}n×n为两个模态中样本之间的语义相关性矩阵,其中,Sij表示图像模态中第i个样本与文本模态中第j 个样本的语义相关性;如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别),则Sij=1,否则Sij=0;如图1所示,该方法包括以下步骤:
(1)使用基于锚点图技术设计的目标函数得到n个对象在图像模态和文本模态的二进制哈希编码B1和B2,以及图像模态和文本模态的投影矩阵P1和P2
(2)鉴于目标函数的非凸性质,通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,即交替地求解如下三个子问题:固定B1和B2,求解P1和P2;固定B2、P1和P2,求解B1;固定B1、P1和P2,求解B2
(3)基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码;
(4)基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离;
(5)使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。
所述步骤(1)中的基于锚点图技术设计的目标函数形式如下:
其中,α、β、γ和λ为非负的平衡因子,k为二进制哈希编码的长度,1n×1表示元素全部为1的列向量,L(1)、L(2)和L均为拉普拉斯矩阵,tr(·)表示矩阵的迹,||·||F表示矩阵的Frobenius范数,(·)T表示矩阵的转置,sign(·)为符号函数。
所述步骤(2)中的通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,具体为,交替地求解如下三个子问题:
(1)固定B1和B2,求解P1和P2。当固定二进制哈希编码B1和B2后,公式(1)所示的目标函数简化为关于投影矩阵P1和P2的子问题,即:
(2)固定B2、P1和P2,求解B1;当固定二进制哈希编码B2,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B1的子问题,即:
(3)固定B1、P1和P2,求解B2;当固定二进制哈希编码B1,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B2的子问题,即:
所述步骤(3)中的基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码,具体为,假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中,表示检索样本集中样本的数量;查询样本和检索样本集中样本的二进制哈希编码分别为:其中,
所述步骤(4)中的基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离,具体为,使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离;使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。
所述步骤(5)中的使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索,具体是对计算得到的汉明距离(或者)按照从小到大的顺序进行排序,然后,在检索样本集中取前K个最小距离对应的样本作为检索结果。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明所述的一种基于锚点图的跨模态哈希学习方法,包括基于锚点图的模态内相似性保持策略,以及基于l2,1范数的特征选择策略;
所述的基于锚点图的模态内相似性保持策略:对于跨模态哈希检索方法来说,为了实现快速检索,需要将每个模态的原始特征数据从高维特征空间映射到低维汉明空间。但是,在特征映射过程中会不可避免的带来信息损失。对于每个模态的特征数据来说,保持其在原始特征空间中的近邻结构对于增强学习得到的哈希编码的鉴别能力是有益的。在大规模数据集上使用传统的KNN近邻图来构建用于实现模态内近邻结构保持的相似度矩阵需要很大的时间开销。为了快速有效地构建所有样本点的相似度矩阵用于保持模态内的近邻结构,本发明方法使用锚点图技术来构建样本点的真实相似度矩阵的近似矩阵以达到节省时间开销的目的;
所述的基于l2,1范数的特征选择策略:对于每个模态的原始特征数据来说,不同特征的鉴别能力不同,并且不同特征之间存在冗余信息。当将每个模态的特征数据从原始高维特征空间投影到低维汉明空间时,希望有益于增强哈希编码鉴别能力的特征能够被选择出来用于生成哈希编码。本发明方法通过对每个模态中用于实现投影变换的投影矩阵使用基于l2,1范数的正则项进行约束来达到这个目的。
本发明的具体实施例为,一种基于锚点图的跨模态哈希学习方法,首先建立n个对象在图像模态和文本模态的特征分别为其中,分别表示第i个对象在图像模态和文本模态的特征向量,i=1,2,…,n,d1和d2分别表示图像模态和文本模态特征向量的维数。同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的,即满足假设分别为图像模态和文本模态样本的邻接矩阵;矩阵A(1)中的元素和矩阵A(2)中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度;假设S∈{0,1}n×n为两个模态中样本之间的语义相关性矩阵,其中,Sij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性;如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别),则Sij=1,否则Sij=0。
具体实施过程主要包括以下步骤:
(1)基于锚点图的跨模态哈希学习目标函数构建:
在本发明方法中,跨模态哈希学习的目的是利用图像模态和文本模态的特征数据X(1)和 X(2),以及对象的类别标记信息学习图像模态和文本模态的哈希函数h(1)(x(1))∈{-1,+1}k×1和 h(2)(x(2))∈{-1,+1}k×1,其中,k是可调节的二进制哈希编码的长度;这里假设 B1=[b11,b12,…,b1n]∈{-1,+1}k×n和B2=[b21,b22,…,b2n]∈{-1,+1}k×n是利用n个对象的图像模态和文本模态的特征数据,以及相应的哈希函数h(1)(·)和h(2)(·)生成的哈希空间中的二进制哈希编码,其中,b1i和b2i分别表示第i(i=1,2,…,n)个对象在图像模态和文本模态的哈希编码;在跨模态哈希学习过程中,当将每个模态的特征数据从原始特征空间变换到汉明空间时,希望特征数据在原始空间的近邻结构能够在汉明空间中得以保留,即,原始特征空间中相似的样本点在变换到汉明空间后具有较小的距离,反之,具有较大的距离。为了定量地表示近邻结构的保留,很多跨模态哈希学习方法基于每个模态样本数据的图结构来构建学习模型。 KNN近邻图常用于保持每个模态内部样本间的相似性关系。然而构造具有n个样本点的近邻图以及相应的拉普拉斯矩阵所需时间复杂度为O(dn2),这对于样本数量比较多的大规模数据集来说,会带来巨大的时间开销。通过使用锚点图技术,可以有效降低构建n个样本点的近邻图的时间复杂度,时间复杂度可以降为O(dmnT+dmn),其中,O(dmnT)为来自于K 均值聚类的时间复杂度,T为迭代次数。
锚点图是指利用m(m<<n)个称为锚点的点来近似地估计数据的近邻结构,即,样本集中n个点之间的相似性可以基于这m个锚点进行度量。下面以图像模态为例,介绍图像模态中n个样本点的相似度矩阵A(1)的构建。构建相似度矩阵A(1)的具体步骤为:
第一,通过使用聚类算法(如K均值聚类、高斯混合聚类、密度聚类等)对数据集中的n个样本点进行聚类分析,将所获得的聚类中心作为m个锚点。
第二,使用n个样本点和m个锚点来定义锚点图,该锚点图的相似度矩阵Z(1)的元素(即,样本集中第i个样本点与第j个锚点uj的相似度)可以用如下的公式表示:
其中,相对于锚点集U(1)且大小为s(s<<m)的最近邻样本集,σ为带宽参数,i=1,2,…,n,j=1,2,…,m。可以看出,矩阵为稀疏矩阵,矩阵Z(1)的每一行中只有s个非零值,并且这s个非零值的和为1。
第三,使用如下的公式计算相似度矩阵A(1)的近似解
其中,为对角矩阵,diag(·)为对角函数,(·)-1表示矩阵的逆,表示元素全为1的列向量。
由公式(2)可知:若两个样本点是相关的,即则两者必然具有至少一个相同的锚点,否则这说明如果两个样本点具有公共的近邻锚点,那么它们的语义相关性就比较大。由公式(2)还可以推导出:矩阵的每个行向量和每个列向量的元素的和均为1,进一步可以得到相应的拉普拉斯矩阵为
类似于在图像模态中基于锚点图技术获取真实相似度矩阵A(1)的近似矩阵和相应的拉普拉斯矩阵L(1)的做法,可以得到文本模态的真实相似度矩阵A(2)的近似矩阵和相应的拉普拉斯矩阵
在跨模态哈希学习过程中,除了希望能在汉明空间中保持两个模态各自的近邻结构,还希望能在汉明空间中最大化两个模态中同类样本的语义相关性,即,对于图像模态和文本模态的哈希编码B1和B2来说,希望其能够保持语义相关性矩阵S中的信息,即若Sij=1,则b1i与b2j、b1j与b2i的汉明距离尽量小,反之两者的距离尽量大。
对于每个模态的特征数据来说,不同的特征具有不同的鉴别能力,并且不同的特征之间存在冗余信息。为了在将每个模态的特征数据从原始高维特征空间投影到低维汉明空间时,尽可能地去除冗余信息并保留尽可能地挖掘鉴别信息,在进行哈希学习时需要对每个模态的特征数据进行特征选择。
根据以上分析,可以设计如下的目标函数来满足上述对跨模态哈希学习的要求:
其中,α、β、γ和λ为非负的平衡因子,1n×1表示元素全部为1的列向量。这两项的作用是希望哈希编码的每一位是+1和-1的概率相等,这两项可以最大化哈希编码的每一位所提供的信息。矩阵P1和矩阵P2分别为将图像模态和文本模态的特征投影到汉明空间所需要的投影矩阵。||P1||2,1和||P2||2,1为防止过拟合的正则项并起到特征选择的作用。对于矩阵||P||2,1的定义为其中,p(i)表示矩阵P的第i行的向量。
将公式(3)进行简单的推导,可以得到:
其中,和L=D-S均为拉普拉斯矩阵,为对角矩阵,并且D的第i个对角元素为
(2)目标函数的求解:
公式(4)所示的目标函数中包含四个待求解的未知变量,即:图像模态和文本模态的哈希编码B1和B2,图像模态和文本模态的投影矩阵P1和P2。公式(4)所示的目标函数对于四个联合在一起的未知变量是非凸的,因此,无法同时得到这四个未知变量的解析解。公式(4)中的未知变量可以通过交替地求解如下三个子问题得到解,即:固定B1和B2,求解P1和P2;固定B2、P1和P2,求解B1;固定B1、P1和P2,求解B2
(a)固定B1和B2,求解P1和P2
当固定图像模态和文本模态的哈希编码B1和B2后,公式(4)所示的目标函数简化为关于投影矩阵P1和P2的子问题,即:
在公式(5)中,因为存在sign(·)函数,因此,求解公式(5)是NP难问题。为了求解公式(5),这里将公式(5)进行松弛,并将其中的基于l2,1范数的正则项转化为迹的形式,可以得到:
其中,G1和G2是对角矩阵。G1和G2的第i个对角元素分别为其中,分别为矩阵P1和P2的第i个行向量。对于来说,从理论上讲它们可以为0,但是为了确保求解算法能够收敛,它们不能为0。因此,这里对g1i和g2i进行正则化处理,令其中,ε为取较小值的平滑项。
对公式(6)中的分别关于P1和P2求导,并令导数等于0,可得:
进一步推导可得:
通过观察公式(9)和公式(10)可以发现,P1(P2)的求解依赖于G1(G2),而G1(G2) 的构建又依赖于P1(P2)。因此,这里采用迭代求解的方式分别对P1和P2进行求解,即,首先分别用有效值初始化P1和P2,并分别基于P1和P2构建G1和G2,然后分别使用公式(9)和公式(10)更新P1和P2,重复上述对P1和P2更新的步骤,直到P1和P2收敛或者达到指定的最大迭代次数为止。
(b)固定B2、P1和P2,求解B1
当固定文本模态的哈希编码B2、以及投影矩阵P1和P2后,公式(4)所示的目标函数简化为关于图像模态的哈希编码B1的子问题,即:
为了方便的求解公式(11)所示的问题,这里对公式(11)中的sign(·)函数和关于B1的约束进行松弛,可以得到:
对公式(12)中的分别关于B1求导,并令导数等于0,可得:
进一步推导并对B1用sign(·)函数进行离散化处理可得:
(c)固定B1、P1和P2,求解B2
当固定图像模态的哈希编码B1、以及投影矩阵P1和P2后,公式(4)所示的目标函数简化为关于图像模态的哈希编码B2的子问题,即:
采用对B1进行求解的类似做法,可以得到:
(3)生成查询样本和检索样本集中的样本二进制哈希编码假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中,表示检索样本集中样本的数量。利用求解得到的图像模态和文本模态的投影矩阵P1和P2,可以得到查询样本和检索样本集中样本的二进制哈希编码分别为:其中,
(4)计算查询样本到检索样本集中各个样本的汉明距离:
对于图像模态的查询样本使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离。对于文本模态的查询样本使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。
(5)使用跨模态检索器完成对查询样本的检索:
对计算得到的汉明距离(或)按照从小到大的顺序进行排序,然后,在检索样本集中取前K个最小距离对应的样本作为检索结果。
以下结合具体实验对本发明的有益效果进行说明。
相关实验主要在MIRFLICKR-25K数据集上进行,下面首先对这个数据集进行简要介绍。MIRFLICKR-25K数据集包含25000幅图像,且每幅图像被标记了24种文本标签中的若干种标签,并基于此构成图像-文本对。实验中选取至少包含20种文本标签的图像-文本对来使用,共计20015对。在图像模态,每幅图像用512维的GIST特征向量表示;在文本模态,文本标签用1386维的词袋向量表示。在实验中随机选择1000对图像-文本用于构造查询样本集,随机选择10000对图像-文本用于训练跨模态哈希检索模型。
在实验中使用平均精度均值(Mean Average Precision,MAP)来衡量跨模态哈希检索方法的性能。若要计算MAP需要首先计算平均精度(Average Precision,AP)。假设某个查询样本在进行跨模态哈希检索时返回R个检索到的样本,那么这个查询样本的平均精度AP 定义为:
在公式(17)中,P(r)表示前r个被检索到的样本的精度,即,前r个被检索到的样本中有多少样本是真正与查询样本相关的。对于δ(r),当第r个被检索到的样本真正与查询样本相关时,δ(r)=1,反之,δ(r)=0。当获取了所有查询样本的平均精度AP后,平均精度均值 MAP即为这些平均精度AP的均值。
在实验中,本发明方法中的参数α、β、γ和λ采用5折交叉验证确定最优的值。对于其它方法中的参数,参照各个方法文献中所推荐的参数设置原则进行设置。实验所报告的结果为10次随机实验结果的平均值。
与本发明方法进行对比的方法分别为:线性跨模态哈希(Linear Cross-ModalHashing,LCMH)方法、线性桥接映射跨模态哈希(Learning Bridging Mapping for Cross-modal Hashing,LBMCH)方法和协同子空间图哈希(Collaborative Subspace GraphHashing,CSGH) 方法。表1列出了本发明方法和对比方法在MIRFLICKR-25K数据集上进行跨模态哈希检索时的平均精度均值MAP。表1中的Img2Txt和Txt2Img分别表示用图像检索文本和用文本检索图像的跨模态检索任务。从表1可以看出,对于图像检索文本和文本检索图像这两种跨模态检索任务,本发明方法的检索性能在四种哈希编码长度下都优于对比方法。这说明本发明提出的基于锚点图的跨模态哈希学习方法是有效的。这也说明综合运用本发明所设计的基于锚点图的模态内相似性保持策略、基于l2,1范数的特征选择策略等可以有效地完成哈希学习,进而有效地提升跨模态哈希检索的性能。
表1各方法在MIRFLICKR-25K数据集上的MAP
下面对本发明方法所设计的基于锚点图的模态内相似性保持策略,对跨模态哈希检索性能和训练时间的影响进行评估。具体地,这里将对比本发明方法在使用和不使用基于锚点图的模态内相似性保持策略时,所能得到的平均精度均值MAP和所需要的训练时间。为了方便表示,将本发明方法使用和不使用基于锚点图的模态内相似性保持策略这两种情况分别记为“本方法”和“本方法1”。表2和表3分别给出了在MIRFLICKR-25K数据集上,当哈希编码长度为 32bits时,本发明方法在使用和不使用基于锚点图的模态内相似性保持策略时,所能得到的平均精度均值MAP和所需要的训练时间。实验所使用的计算机的主要配置为:Intel(R) Core(TM)i7-7700K 4.20GHz CPU和64GB DDR4RAM。从表2和表3可以看出,本发明方法在使用基于锚点图的模态内相似性保持策略时,训练时间明显降低,并且两种情况下所得到的平均精度均值MAP相差不大。这说明本发明方法所设计的基于锚点图的模态内相似性保持策略可以在不损失跨模态检索性能的情况下,有效地降低训练时间复杂度。
表2两个方法在MIRFLICKR-25K数据集上的MAP
任务 本方法 本方法1
Img2Txt 0.3350 0.3352
Txt2Img 0.4269 0.4267
表3两个方法在MIRFLICKR-25K数据集上的训练时间(单位:秒)
本方法 本方法1
43.25 125.62
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

Claims (6)

1.一种基于锚点图的跨模态哈希学习方法,建立n个对象在图像模态和文本模态的特征分别为其中,分别表示第i个对象在图像模态和文本模态的特征向量,i=1,2,…,n,d1和d2分别表示图像模态和文本模态特征向量的维数;同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的,即满足假设分别为图像模态和文本模态样本的邻接矩阵;矩阵A(1)中的元素和矩阵A(2)中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度;假设S∈{0,1}n×n为两个模态中样本之间的语义相关性矩阵,其中,Sij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性;如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别),则Sij=1,否则Sij=0;特征在于,该方法包括以下步骤:
(1)使用基于锚点图技术设计的目标函数得到n个对象在图像模态和文本模态的二进制哈希编码B1和B2,以及图像模态和文本模态的投影矩阵P1和P2
(2)鉴于目标函数的非凸性质,通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,即交替地求解如下三个子问题:固定B1和B2,求解P1和P2;固定B2、P1和P2,求解B1;固定B1、P1和P2,求解B2
(3)基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码;
(4)基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离;
(5)使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。
2.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法,其特征在于,所述步骤(1)中的基于锚点图技术设计的目标函数形式如下:
其中,α、β、γ和λ为非负的平衡因子,k为二进制哈希编码的长度,1n×1表示元素全部为1的列向量,L(1)、L(2)和L均为拉普拉斯矩阵,tr(·)表示矩阵的迹,||·||F表示矩阵的Frobenius范数,(·)T表示矩阵的转置,sign(·)为符号函数。
3.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法,其特征在于,所述步骤(2)中的通过交替更新的方式求解目标函数中的未知变量B1、B2、P1和P2,具体为,交替地求解如下三个子问题:
(1)固定B1和B2,求解P1和P2。当固定二进制哈希编码B1和B2后,公式(1)所示的目标函数简化为关于投影矩阵P1和P2的子问题,即:
(2)固定B2、P1和P2,求解B1;当固定二进制哈希编码B2,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B1的子问题,即:
(3)固定B1、P1和P2,求解B2;当固定二进制哈希编码B1,以及投影矩阵P1和P2后,公式(1)所示的目标函数简化为关于二进制哈希编码B2的子问题,即:
4.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法,其特征在于,所述步骤(3)中的基于求解得到的图像模态和文本模态的投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码,具体为,假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中,表示检索样本集中样本的数量;查询样本和检索样本集中样本的二进制哈希编码分别为:其中,
5.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法,其特征在于,所述步骤(4)中的基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离,具体为,使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离;使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。
6.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法,其特征在于,所述步骤(5)中的使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索,具体是对计算得到的汉明距离(或者)按照从小到大的顺序进行排序,然后,在检索样本集中取前K个最小距离对应的样本作为检索结果。
CN201811439568.8A 2018-11-29 2018-11-29 一种基于锚点图的跨模态哈希学习方法 Active CN109657112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811439568.8A CN109657112B (zh) 2018-11-29 2018-11-29 一种基于锚点图的跨模态哈希学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811439568.8A CN109657112B (zh) 2018-11-29 2018-11-29 一种基于锚点图的跨模态哈希学习方法

Publications (2)

Publication Number Publication Date
CN109657112A true CN109657112A (zh) 2019-04-19
CN109657112B CN109657112B (zh) 2022-07-08

Family

ID=66111921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811439568.8A Active CN109657112B (zh) 2018-11-29 2018-11-29 一种基于锚点图的跨模态哈希学习方法

Country Status (1)

Country Link
CN (1) CN109657112B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110727818A (zh) * 2019-09-27 2020-01-24 天津大学 一种基于低秩嵌入表示的二进制图像特征编码方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN112925934A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的相似图像检索方法、***、设备及介质
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、***、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112146A1 (en) * 2004-11-22 2006-05-25 Nec Laboratories America, Inc. Systems and methods for data analysis and/or knowledge management
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
WO2015059706A2 (en) * 2013-10-24 2015-04-30 Cathworks Ltd. Vascular characteristic determination with correspondence modeling of a vascular tree
CN105930440A (zh) * 2016-04-19 2016-09-07 中山大学 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法
US20170076143A1 (en) * 2015-06-11 2017-03-16 Duke University Systems and methods for large scale face identification and verification
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN106886601A (zh) * 2017-03-02 2017-06-23 大连理工大学 一种基于子空间混合超图学习的交叉模态检索算法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112146A1 (en) * 2004-11-22 2006-05-25 Nec Laboratories America, Inc. Systems and methods for data analysis and/or knowledge management
WO2015059706A2 (en) * 2013-10-24 2015-04-30 Cathworks Ltd. Vascular characteristic determination with correspondence modeling of a vascular tree
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
US20170076143A1 (en) * 2015-06-11 2017-03-16 Duke University Systems and methods for large scale face identification and verification
CN105930440A (zh) * 2016-04-19 2016-09-07 中山大学 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN106886601A (zh) * 2017-03-02 2017-06-23 大连理工大学 一种基于子空间混合超图学习的交叉模态检索算法
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YANG WANG: "LBMCH: Learning Bridging Mapping for Cross-modal Hashing", 《PROCEEDINGS OF THE 38TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》, 9 August 2018 (2018-08-09), pages 999 *
姚涛等: "基于映射字典学习的跨模态哈希检索", 《自动化学报》, no. 08, 11 December 2017 (2017-12-11), pages 133 - 143 *
杨晓兰等: "基于医学征象和卷积神经网络的肺结节CT图像哈希检索", 《智能***学报》, no. 06, 9 November 2017 (2017-11-09), pages 101 - 108 *
樊花等: "基于哈希方法的跨模态检索研究进展", 《数据通信》, no. 03, 28 June 2018 (2018-06-28), pages 43 - 49 *
胡孟秋: "基于哈希吗学习的图像检索算法研究", 《中国优秀硕士学位论文全文数据库》, 15 September 2018 (2018-09-15), pages 138 - 296 *
董西伟: "基于半监督典型相关分析的多视图维数约简", 《计算机应用研究》, 29 April 2016 (2016-04-29), pages 3686 - 3690 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110727818A (zh) * 2019-09-27 2020-01-24 天津大学 一种基于低秩嵌入表示的二进制图像特征编码方法
CN110727818B (zh) * 2019-09-27 2023-11-14 天津大学 一种基于低秩嵌入表示的二进制图像特征编码方法
CN112925934A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的相似图像检索方法、***、设备及介质
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、***、设备及介质
CN112925934B (zh) * 2021-01-20 2022-09-23 同济大学 基于哈希编码的相似图像检索方法、***、设备及介质
CN112925962B (zh) * 2021-01-20 2022-09-27 同济大学 基于哈希编码的跨模态数据检索方法、***、设备及介质

Also Published As

Publication number Publication date
CN109657112B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN109657112A (zh) 一种基于锚点图的跨模态哈希学习方法
Cui et al. Scalable deep hashing for large-scale social image retrieval
Lu et al. R-VQA: learning visual relation facts with semantic attention for visual question answering
Wang et al. Learning context-sensitive similarity by shortest path propagation
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
Liu et al. Ordinal constraint binary coding for approximate nearest neighbor search
Xu et al. Learning cross-modal common representations by private–shared subspaces separation
Cheng et al. Robust unsupervised cross-modal hashing for multimedia retrieval
Mao et al. Soft margin consistency based scalable multi-view maximum entropy discrimination.
CN106202256A (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Wu et al. Learning semantic structure-preserved embeddings for cross-modal retrieval
Liang et al. Self-paced cross-modal subspace matching
CN104715021A (zh) 一种基于哈希方法的多标记学习的设计方法
Snoek et al. University of Amsterdam and Renmin University at TRECVID 2017: Searching Video, Detecting Events and Describing Video.
Liu et al. Efficient cross-modal retrieval via flexible supervised collective matrix factorization hashing
Lin et al. Deep unsupervised hashing with latent semantic components
Gao et al. Cross modal similarity learning with active queries
Wang et al. Semantic-rebased cross-modal hashing for scalable unsupervised text-visual retrieval
Li et al. Zero-shot predicate prediction for scene graph parsing
Wang et al. Deep hashing with active pairwise supervision
CN107133348B (zh) 大规模图片集中基于语义一致性的近似搜索方法
Li et al. Deep learning method for Chinese multisource point of interest matching
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
Demir et al. Kernel-based hashing for content-based image retrval in large remote sensing data archive
Zhao et al. From sparse to dense: semantic graph evolutionary hashing for unsupervised cross-modal retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant