CN107402993B - 基于判别性关联最大化哈希的跨模态检索方法 - Google Patents
基于判别性关联最大化哈希的跨模态检索方法 Download PDFInfo
- Publication number
- CN107402993B CN107402993B CN201710581083.1A CN201710581083A CN107402993B CN 107402993 B CN107402993 B CN 107402993B CN 201710581083 A CN201710581083 A CN 201710581083A CN 107402993 B CN107402993 B CN 107402993B
- Authority
- CN
- China
- Prior art keywords
- hash
- text
- data
- image
- object function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 238000013480 data collection Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 241001269238 Data Species 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 44
- 230000001419 dependent effect Effects 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于判别性关联最大化哈希的跨模态检索方法,包括:对训练数据集进行多模态提取,得到训练多模态数据集;对于训练多模态数据集,构造该数据集上的基于判别性关联最大化哈希的目标函数;求解所述目标函数,得到图像、文本的投影到公用的海明空间的投影矩阵、图像文本对的联合哈希码;对于测试数据集,投影到所述公用的海明空间,并通过哈希函数量化为训练集样本的哈希码;基于哈希码进行跨模态检索。本发明提高了跨媒体检索的效率和准确度。
Description
技术领域
本发明涉及数据检索领域,具体涉及一种基于判别性关联最大化哈希的跨模态检索方法。
背景技术
随着科学技术的发展,互联网中涌入了大量的多模态数据。为了从互联网中检索到有用的信息,兴起了一系列信息检索技术。传统信息检索技术基于单模态,即输入的查询数据和检索得到的结果是同模态。这使得信息检索非常具有局限性,因此我们希望将单模态的信息检索扩展到跨模态的信息检索,即给定一张图片,检索到与该图片相关的文字描述,反之同理。
因为不同模态的数据具有不同的特性,因此几乎不可能直接度量二者的相似性,这是跨模态方法的主要挑战。为了解决这一问题,最常用的方法就是子空间学习法。典型相关分析(CCA)是一种通用的无监督子空间学习法,它将不同模态的数据投影到同一空间,同时将两个模态之间的关系最大化。CCA方法旨在将两个不同模态的数据之间的关系最大化,而偏最小二乘(PLS)是从协方差的角度解决跨媒体检索的问题。广义的多模态分析(GMA)使用了类别标记作为监督信息,它是CCA方法在有监督领域的扩展。
上面提到的跨媒体检索方法在处理大规模数据时往往需要消耗大量的时间和存储空间。为了解决这一问题,哈希方法应运而生。在哈希方法中,用二进制的哈希码来表示数据,在度量不同数据之间的相似性时,只需要在海明空间中对不同数据的哈希码进行基于位数的异或运算。哈希方法有效减少了运算复杂性,使用更少的存储空间。基于哈希的跨模态方法通常将不同模态的数据投影到一个通用的海明空间,在这个空间中得到不同模态数据的哈希码,从而可以直接进行不同模态数据之间的相似度度量。基于哈希的跨模态检索方法已经得到了有效应用,基于哈希的共同矩阵分解(CMFH)为多模态数据学习到一个共用的哈希码,并利用它在通用语义空间中进行相似度度量;潜在语义稀疏哈希(LSSH)分别利用稀疏编码和矩阵分解得到两个模态数据的高层语义信息,然后利用哈希方法进行跨媒体检索。
虽然已有多种基于哈希的跨媒体检索方法,但现存的方法没有考虑到数据特征的判别性分布。数据特征的判别性分布(同类的数据特征尽可能接近,不同类的数据特征尽可能远离)可以使得跨媒体检索的效果更佳精确。因此,如何在将图像和文本投影到语义空间的同时保持它们各自的判别性分布,从而提高检索精度,是目前本领域技术人员仍需解决的技术问题。
发明内容
本发明为了解决上述问题,提出了一种基于判别性关联最大化哈希的跨模态检索方法,在将文本和图像模态的数据特征投影到一个公用的海明空间之后,仍然保持各模态的判别性分布以及使成对的多模态数据之间的关联最大化,从而提高跨模态检索的准确度。
本发明的具体技术方案如下:
一种基于判别性关联最大化哈希的跨模态检索方法,包括以下步骤:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;
步骤2:对训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤3:对于训练多模态数据集Otrain,构造该数据集上的基于判别性关联最大化哈希的目标函数;
步骤4:求解所述目标函数,得到图像、文本的投影到公用的海明空间的投影矩阵W1和W2、图像文本对的联合哈希码B,用联合哈希码B作为该对图像和文本的哈希码;
步骤5:获取测试数据集,并对其进行多模态提取,得到测试多模态数据集Otest;
步骤6:对于测试多模态数据集Otest,根据步骤3求得的投影矩阵W1和W2,将测试数据集中每个样本的图像或文本投影到所述公用的海明空间,并通过哈希函数量化为训练集样本的哈希码;
步骤7:进行跨模态检索,基于哈希码,在所述训练数据集中检索与测试集中待检索样本相关的另一模态的对象;
所述步骤3中目标函数为:
其中,分别是图像和文本的数据特征矩阵,是标记矩阵;λ,μ1,μ2,β,α是平衡参数,γ是正则化参数。
进一步地,所述步骤3包括:
步骤3-1:设训练多模态数据子集Otrain每个数据样本为其中,是图像的特征向量,是文本的特征向量,yi∈{0,1}c是类别标记,N是样本个数;将两个模态的数据从原始的异构空间投影到公用的海明空间中,并使一个样本中成对的图像和文本之间的关联最大化:
步骤3-2:对文本模态数据进行线性判别分析处理,并使其特性传递到图像模态数据:
步骤3-3:将两个模态数据特征转换为哈希码,将通过哈希函数得到哈希码的量化损失最小化:
步骤3-4:加入类别标记作为监督信息,对哈希码进行分类:
步骤3-5:增加正则化项防止过拟合,其定义为:
步骤3-6:将步骤3-1至3-5整合,得到目标函数。
进一步地,所述步骤4目标函数求解方法为:
步骤4-1:固定目标函数中的其他项,求解图像模态的投影矩阵W1;
步骤4-2:固定目标函数中的其他项,求解文本模态的投影矩阵W2;
步骤4-3:固定目标函数中的其他项,求解联合哈希码B;
步骤4-4:固定目标函数中的其他项,求解分类器矩阵Q。
进一步地,所述检索方法还包括:根据多模态数据集自带的类别标记评判检索正确率。
根据本发明的另一方面,本发明还提供了一种用于跨模态检索的目标函数构建方法,包括:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;对所述训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤2:将两个模态的数据从原始的异构空间投影到公用的海明空间中,并使一个样本中成对的图像和文本之间的关联最大化;
步骤3:对文本模态数据进行线性判别分析处理,并使其特性传递到图像模态数据;
步骤4:将两个模态数据特征转换为哈希码,将通过哈希函数得到哈希码的量化损失最小化;
步骤5:加入类别标记作为监督信息;
步骤6:增加正则化项防止过拟合;
步骤7:将步骤2至6整合,得到基于判别性关联最大化哈希的目标函数目标函数。
进一步地,所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为:
其中,V和T分别是图像和文本的数据特征矩阵,W1和W2分别为图像、文本的投影到公用的海明空间的投影矩阵。
进一步地,所述步骤3包括:对文本模态数据进行线性判别分析处理,获取类内相似度矩阵Sw和类间相似度矩阵Sb,将该特性传递到图像模态数据,定义为:
进一步地,所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为:
其中,B为联合哈希码。
进一步地,步骤5类别标记定义为:
其中,Q为分类器矩阵。
进一步地,所述步骤6正则化项定义为:
本发明的有益效果为:
本发明在基于哈希的跨媒体检索中,充分利用了数据特征的判别性分布,对文本模态进行线性判别性分析并将其特性传递给图像模态。此外,还使得同一样本的多模态数据在投影到公用的海明空间之后仍然保持最大化关联。这都使得海明空间中的数据特征分布更加具有判别性,从而由数据特征量化得到的哈希码更容易进行分类,从而提高跨媒体检索的性能,同时哈希技术的应用可以减少跨模态检索在时间、空间上的消耗。
附图说明
构成本申请的一部分的说明书附图是用来提供对本申请的进一步理解,本申请的适宜性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为基于判别性关联最大化哈希的跨媒体检索总流程图;
图2为基于判别性关联最大化的哈希的目标函数的构造示意图;
图3为求解该目标函数的示意图。
具体实施方式
下面将结合附图和实施例,对本发明实施例中的技术方案进行清楚、完整地描述。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于判别性关联最大化哈希的跨模态检索方法,如图1所示,包括以下步骤:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;
步骤2:对训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤3:对于训练多模态数据集Otrain,构造该数据集上的基于判别性关联最大化哈希的目标函数;
步骤4:求解所述目标函数,得到图像、文本的投影到公用的海明空间的投影矩阵W1和W2、图像文本对的联合哈希码B以及分类器矩阵Q,用联合哈希码B作为该对图像和文本的哈希码;
步骤5:获取测试数据集,并对其进行多模态提取,得到测试多模态数据集Otest;
步骤6:对于测试数据集Otest,根据步骤3求得的投影矩阵W1和W2,将测试数据集中每个样本的图像或文本投影到所述公用的海明空间,并利用学习到的哈希函数哈希函数f(V)=sgn(W1V)和g(T)=sgn(W2T),可以直接求得测试数据集中图像和文本的哈希码;
步骤7:进行跨模态检索,基于哈希码,在所述训练数据集中检索与测试集中待检索样本相关的另一模态的对象。
所述基于判别性关联最大化哈希的目标函数为(如图2所示):
其中,分别是图像和文本的数据特征矩阵,是标记矩阵;λ,μ1,μ2,β,α是平衡参数,γ是正则化参数。
所述基于判别性关联最大化哈希的目标函数的构造过程为:
步骤1:获取多模态数据集合O,所述多模态数据集合包括训练多模态数据子集Otrain和测试多模态数据子集Otest;
假定每一个数据样本其中是图像的特征向量,是文本的特征向量,yi∈{0,1}c是类别标记,N是样本个数。每一个数据样本中包含一对图像文本对,它们的物理特性是不同的,但是它们具有相同的语义含义,属于同一类。
这里我们假定每一个样本都属于c个类的其中之一。则 分别是图像和文本的数据特征矩阵。是标记矩阵,如果一个样本oi中的图像和文本数据特征vi和ti都属于第j个类,则yi的第j个元素为1,其余为0。
步骤2:将原始的异构空间的数据特征投影到一个通用的海明空间中。
步骤2-1:对于Otrain中的每一个样本设定图像和文本两个模态的哈希函数f(V)=sgn(W1V)和g(T)=sgn(W2T),将两个模态的数据从原始的异构空间投影进一个公用的海明空间中。
两个模态的哈希函数定义为:和我们采用了一种常用的哈希函数表示方法,则两个哈希函数的具体表示方式如下:f(V)=sgn(W1V)和g(T)=sgn(W2T)。其中sgn(·)是符号函数,它能将连续的数据离散化成二进制的哈希码;W1和W2分别是两个模态的投影矩阵。
步骤2-2:因为在原始状态时一个样本中的图像和文本是成对的,因此在投影之后的海明空间中应使一个样本中成对的图像和文本之间的关联最大化,其定义如下:
其中W1和W2是图像和文本的投影矩阵。
步骤2-3:为了保持数据的判别性特性,我们引入了线性判别分析(LDA)对文本模态的数据进行处理,并使其特性传递到图像模态,其定义如下:
其中Sw为类内相似度矩阵,Sb为类间相似度矩阵。
线性判别分析(LDA)将高维空间中的数据投影进一个最优的判别性空间,在投影后的空间中,不同类别的数据之间距离尽可能大,同类的数据之间的距离尽可能小。对文本模态的数据进行线性判别分析,定义Sw为类内相似度矩阵,Sb为类间相似度矩阵。我们对文本模态的数据进行线性判别分析,这能使投影到公用海明空间的文本模态的数据分布具有判别性,通过Sw和Sb将这个特性传递到图像模态,定义为:
其中tr(·)是矩阵的迹。该公式等价于:
步骤3:利用步骤(2-1)中定义的哈希函数,将投影到公用海明空间的图像和文本的数据特征量化为哈希码。
因为一个样本是由一对图像和文本组成的,它们具有相同的语义含义,因此我们引入一个辅助变量——两个模态的联合哈希码即一个样本中的一对图像和文本使用同一个哈希码。我们应尽量使产生哈希码的量化损失尽可能小,定义如下:
步骤4:加入类别标记作为监督信息,我们学习得到的联合哈希码可以很容易得用于分类,具体的,学习到的哈希码为B,为其增加的语义信息为Y,由于语义信息Y与哈希码B矩阵维度不一致,引入分类器矩阵Q进行转换。定义为:
步骤5:为了防止过拟合,对投影矩阵进行正则化约束,定义为:
增加正则化项防止过拟合,其定义为:
对以上五个步骤进行整合,我们得到一个完整的目标函数:
其中λ,μ1,μ2,β,α是平衡参数,γ是正则化参数(用来防止过拟合)。
我们的目的是通过求解上面的目标函数得到投影矩阵W1和W2、联合哈希码B。由于目标函数中含有多个未知变量,无法直接求解。因此本发明提出了一个迭代求解算法,固定其他变量,求解一个变量,这样我们最终可以得到最优解。此外,为了简便计算,我们将联合哈希码B的离散约束B∈{-1,1}L×N放松为连续约束0≤B≤1。
根据基于判别性关联最大化哈希的目标函数,我们提出了一个迭代求解算法(如图3所示),用于求解我们所需要的投影矩阵W1和W2、联合哈希码B和分类器矩阵Q。
步骤1:固定目标函数中的其他变量W2、Q和B,求解投影矩阵W1。目标函数变成:
通过对W1求偏导数,得到的W1的解:
W1=(μ1BVT+λW2TVT)(μ1VVT+λVVT+γI)。
步骤2:通过固定其他变量W1、Q和B,求解投影矩阵W2。目标函数变成:
通过计算W2的偏导数并令其等于0,得到W2的解:
步骤3:固定其他变量W1、W2和Q,求解联合哈希码B。目标函数变成:
通过计算B的偏导数并令其等于0,得到B的解:
B=(αQTQ+(μ1+μ2)I)-1(αQTY+μ1W1V+μ2W2T)。
步骤4:固定其他变量W1、W2和B,求解分类器矩阵Q。目标函数变成:
通过计算Q的偏导数并令其等于0,得到Q的解:
Q=(αYBT)(αBBT+γI)-1。
最终,我们用联合哈希码B作为训练样本的哈希码,对于新来的测试样本,我们通过对哈希函数进行量化得到测试样本的哈希码。通过哈希码之间的相似度比较来进行跨媒体检索。
所述检索方法还包括:根据多模态数据集自带的类别标记评判检索正确率。这里我们采用常用的平均准确率(MAP)值来评估该方法的检索正确率。给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:其中是检索样本集中样本的总数,P(r)表示相关样本的数量与全部被检索样本数量的比率,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0。所有样本的AP值的平均值即MAP。
实施例二
根据以上基于判别性关联最大化哈希的跨模态检索方法,本实施例提供了相应的目标函数构建方法,如图2所示,包括:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;对所述训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤2:将两个模态的数据从原始的异构空间投影到公用的海明空间中,并使一个样本中成对的图像和文本之间的关联最大化;
步骤3:对文本模态数据进行线性判别分析处理,并使其特性传递到图像模态数据;
步骤4:将两个模态数据特征转换为哈希码,将通过哈希函数得到哈希码的量化损失最小化;
步骤5:加入类别标记作为监督信息;
步骤6:增加正则化项防止过拟合;
步骤7:将步骤2至6整合,得到基于判别性关联最大化哈希的目标函数目标函数。
所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为:
其中,V和T分别是图像和文本的数据特征矩阵,W1和W2分别为图像、文本的投影到公用的海明空间的投影矩阵。
所述步骤3包括:对文本模态数据进行线性判别分析处理,获取类内相似度矩阵Sw和类间相似度矩阵Sb,将该特性传递到图像模态数据,定义为:
所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为:
其中,B为联合哈希码。
步骤5类别标记定义为:
其中,Q为分类器矩阵。
所述步骤6正则化项定义为:
实验效果:
以Wiki图像文本数据集中的图像文本数据进行验证,检索准确率如表1所示。
表1 Wiki数据集上6种跨媒体检索(图像检索文本和文本检索图像)的检索正确率(MAP)比较
可以看出,本发明方法分别为文本和图像两个模态的数据学习到各自的哈希函数,将原始的数据特征投影到一个公用的海明空间,并对文本模态的数据进行线性判别分析(LDA)处理,使得投影之后的文本特征保持判别性,并且这一特性将被传递到图像模态。在公用的海明空间中,数据特征可以转变成哈希码,利用类别标记信息可以很容易得对哈希码进行分类。这些操作能获得良好的跨媒体检索效果,同时哈希技术的应用可以减少跨模态检索在时间、空间上的消耗。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于判别性关联最大化哈希的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;
步骤2:对训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤3:对于训练多模态数据集Otrain,构造该数据集上的基于判别性关联最大化哈希的目标函数;
步骤4:求解所述目标函数,得到图像、文本的投影到公用的海明空间的投影矩阵W1和W2、图像文本对的哈希码B;
步骤5:获取测试数据集,并对其进行多模态提取,得到测试多模态数据集Otest;
步骤6:对于测试多模态数据集Otest,根据步骤4求得的投影矩阵W1和W2,将测试数据集中每个样本的图像或文本投影到所述公用的海明空间,并通过哈希函数量化为哈希码;
步骤7:进行跨模态检索,基于哈希码,在所述训练数据集中检索与测试集中待检索样本相关的另一模态的对象;
所述步骤3中目标函数为:
s.t.B∈{-1,1}L×N,W1W1 T=Ik,
其中,分别是图像和文本的数据特征矩阵,是标记矩阵;λ,μ1,μ2,β,α是平衡参数,γ是正则化参数,Sw为类内相似度矩阵,Sb为类间相似度矩阵,Q为分类器矩阵,N是样本个数,c表示类别数。
2.如权利要求1所述的一种基于判别性关联最大化哈希的跨模态检索方法,其特征在于,所述步骤3包括:
步骤3-1:设训练多模态数据子集Otrain每个数据样本为其中,是图像的特征向量,是文本的特征向量,yi∈{0,1}c是类别标记,N是样本个数;将两个模态的数据从原始的异构空间投影到公用的海明空间中,并使一个样本中成对的图像和文本之间的关联最大化:
s.t.W1W1 T=Ik,
步骤3-2:对文本模态数据进行线性判别分析处理,并使其特性传递到图像模态数据:
步骤3-3:将两个模态数据特征转换为哈希码,将通过哈希函数得到哈希码的量化损失最小化:
s.t.B∈{-1,1}L,W1W1 T=Ik,
步骤3-4:加入类别标记作为监督信息,对哈希码进行分类:
s.t.B∈{-1,1}L
步骤3-5:增加正则化项防止过拟合,其定义为:
步骤3-6:将步骤3-1至3-5整合,得到目标函数。
3.如权利要求2所述的一种基于判别性关联最大化哈希的跨模态检索方法,其特征在于,所述步骤4目标函数求解方法为:
步骤4-1:固定目标函数中的其他项,求解图像模态的投影矩阵W1;
步骤4-2:固定目标函数中的其他项,求解文本模态的投影矩阵W2;
步骤4-3:固定目标函数中的其他项,求解联合哈希码B;
步骤4-4:固定目标函数中的其他项,求解分类器矩阵Q。
4.如权利要求1所述的一种基于判别性关联最大化哈希的跨模态检索方法,其特征在于,所述检索方法还包括:根据多模态数据集自带的类别标记评判检索正确率。
5.一种用于跨模态检索的目标函数构建方法,其特征在于,包括:
步骤1:获取训练数据集,其中每个样本都包括成对的图像和文本两个模态数据;对所述训练数据集进行多模态提取,得到训练多模态数据集Otrain;
步骤2:将两个模态的数据从原始的异构空间投影到公用的海明空间中,并使一个样本中成对的图像和文本之间的关联最大化;
步骤3:对文本模态数据进行线性判别分析处理,并使其特性传递到图像模态数据;
步骤4:将两个模态数据特征转换为哈希码,将通过哈希函数得到哈希码的量化损失最小化;
步骤5:加入类别标记作为监督信息;
步骤6:增加正则化项防止过拟合;
步骤7:将步骤2至6整合,得到基于判别性关联最大化哈希的目标函数目标函数。
6.如权利要求5所述的一种用于跨模态检索的目标函数构建方法,其特征在于,所述步骤2中使一个样本中成对的图像和文本之间的关联最大化定义为:
s.t.W1W1 T=Ik,
其中,V和T分别是图像和文本的数据特征矩阵,W1和W2分别为图像、文本的投影到公用的海明空间的投影矩阵。
7.如权利要求6所述的一种用于跨模态检索的目标函数构建方法,其特征在于,所述步骤3包括:对文本模态数据进行线性判别分析处理,获取类内相似度矩阵Sw和类间相似度矩阵Sb,将该特性传递到图像模态数据,定义为:
Sw为类内相似度矩阵,Sb为类间相似度矩阵。
8.如权利要求6或7所述的一种用于跨模态检索的目标函数构建方法,其特征在于,所述步骤4将通过哈希函数得到哈希码的量化损失最小化定义为:
s.t.B∈{-1,1}L,W1W1 T=Ik,
其中,B为联合哈希码。
9.如权利要求8所述的一种用于跨模态检索的目标函数构建方法,其特征在于,步骤5类别标记定义为:
s.t.B∈{-1,1}L
其中,Q为分类器矩阵,Y表示标记矩阵。
10.如权利要求9所述的一种用于跨模态检索的目标函数构建方法,其特征在于,所述步骤6正则化项定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710581083.1A CN107402993B (zh) | 2017-07-17 | 2017-07-17 | 基于判别性关联最大化哈希的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710581083.1A CN107402993B (zh) | 2017-07-17 | 2017-07-17 | 基于判别性关联最大化哈希的跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107402993A CN107402993A (zh) | 2017-11-28 |
CN107402993B true CN107402993B (zh) | 2018-09-11 |
Family
ID=60400727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710581083.1A Expired - Fee Related CN107402993B (zh) | 2017-07-17 | 2017-07-17 | 基于判别性关联最大化哈希的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107402993B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170755B (zh) * | 2017-12-22 | 2020-04-07 | 西安电子科技大学 | 基于三元组深度网络的跨模态哈希检索方法 |
CN109299216B (zh) * | 2018-10-29 | 2019-07-23 | 山东师范大学 | 一种融合监督信息的跨模态哈希检索方法和*** |
CN109376261B (zh) * | 2018-10-29 | 2019-09-24 | 山东师范大学 | 基于中级文本语义增强空间的模态独立检索方法和*** |
CN109522946A (zh) * | 2018-10-31 | 2019-03-26 | 咪咕文化科技有限公司 | 一种图像分类模型处理方法、装置及存储介质 |
CN109766455B (zh) * | 2018-11-15 | 2021-09-24 | 南京邮电大学 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
CN109766481B (zh) * | 2019-01-11 | 2021-06-08 | 西安电子科技大学 | 基于协同矩阵分解的在线哈希跨模态信息检索方法 |
CN111460077B (zh) * | 2019-01-22 | 2021-03-26 | 大连理工大学 | 一种基于类语义引导的跨模态哈希检索方法 |
CN110019652B (zh) * | 2019-03-14 | 2022-06-03 | 九江学院 | 一种基于深度学习的跨模态哈希检索方法 |
CN110059198B (zh) * | 2019-04-08 | 2021-04-13 | 浙江大学 | 一种基于相似性保持的跨模态数据的离散哈希检索方法 |
CN110059154B (zh) * | 2019-04-10 | 2022-04-15 | 山东师范大学 | 一种基于继承映射的跨模态迁移哈希检索方法 |
CN110188210B (zh) * | 2019-05-10 | 2021-09-24 | 山东师范大学 | 一种基于图正则化与模态独立的跨模态数据检索方法及*** |
CN110674323B (zh) * | 2019-09-02 | 2020-06-30 | 山东师范大学 | 基于虚拟标签回归的无监督跨模态哈希检索方法及*** |
CN111259176B (zh) * | 2020-01-16 | 2021-08-17 | 合肥工业大学 | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
CN111368176B (zh) * | 2020-03-02 | 2023-08-18 | 南京财经大学 | 基于监督语义耦合一致的跨模态哈希检索方法及*** |
CN111651577B (zh) * | 2020-06-01 | 2023-04-21 | 全球能源互联网研究院有限公司 | 跨媒体数据关联分析模型训练、数据关联分析方法及*** |
CN113343014A (zh) * | 2021-05-25 | 2021-09-03 | 武汉理工大学 | 基于深度异构相关学习的跨模态图像音频检索方法 |
CN117033724B (zh) * | 2023-08-24 | 2024-05-03 | 广州市景心科技股份有限公司 | 基于语义关联的多模态数据检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996191A (zh) * | 2009-08-14 | 2011-03-30 | 北京大学 | 一种二维跨媒体元搜索方法和*** |
CN102629275A (zh) * | 2012-03-21 | 2012-08-08 | 复旦大学 | 面向跨媒体新闻检索的人脸-人名对齐方法及*** |
CN105205096A (zh) * | 2015-08-18 | 2015-12-30 | 天津中科智能识别产业技术研究院有限公司 | 一种跨文本模态和图像模态的数据检索方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9280587B2 (en) * | 2013-03-15 | 2016-03-08 | Xerox Corporation | Mailbox search engine using query multi-modal expansion and community-based smoothing |
US9830506B2 (en) * | 2015-11-09 | 2017-11-28 | The United States Of America As Represented By The Secretary Of The Army | Method of apparatus for cross-modal face matching using polarimetric image data |
CN106777318B (zh) * | 2017-01-05 | 2019-12-10 | 西安电子科技大学 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
-
2017
- 2017-07-17 CN CN201710581083.1A patent/CN107402993B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996191A (zh) * | 2009-08-14 | 2011-03-30 | 北京大学 | 一种二维跨媒体元搜索方法和*** |
CN102629275A (zh) * | 2012-03-21 | 2012-08-08 | 复旦大学 | 面向跨媒体新闻检索的人脸-人名对齐方法及*** |
CN105205096A (zh) * | 2015-08-18 | 2015-12-30 | 天津中科智能识别产业技术研究院有限公司 | 一种跨文本模态和图像模态的数据检索方法 |
Non-Patent Citations (1)
Title |
---|
Linear Subspace Ranking Hashing for Cross-Modal Retrieval;Kai Li等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20160919;第39卷(第9期);第1825-1838页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107402993A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107402993B (zh) | 基于判别性关联最大化哈希的跨模态检索方法 | |
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
Mandal et al. | Generalized semantic preserving hashing for n-label cross-modal retrieval | |
CN106777318B (zh) | 基于协同训练的矩阵分解跨模态哈希检索方法 | |
CN107256271B (zh) | 基于映射字典学习的跨模态哈希检索方法 | |
CN107729513B (zh) | 基于语义对齐的离散监督跨模态哈希检索方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
US11176462B1 (en) | System and method for prediction of protein-ligand interactions and their bioactivity | |
CN108510559A (zh) | 一种基于有监督多视角离散化的多媒体二值编码方法 | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及*** | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
Ji et al. | Image-attribute reciprocally guided attention network for pedestrian attribute recognition | |
CN111126563B (zh) | 基于孪生网络的时空数据的目标识别方法及*** | |
Li et al. | Hashing with dual complementary projection learning for fast image retrieval | |
CN112101029B (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
Xu et al. | Transductive visual-semantic embedding for zero-shot learning | |
Wang et al. | Asymmetric correlation quantization hashing for cross-modal retrieval | |
Sitaula et al. | Unsupervised deep features for privacy image classification | |
CN109857892B (zh) | 基于类标传递的半监督跨模态哈希检索方法 | |
Shen et al. | Semi-paired hashing for cross-view retrieval | |
Wang et al. | Deep hashing with active pairwise supervision | |
CN107885854A (zh) | 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法 | |
Gong et al. | Autonomous learning of foreign language based on facial emotion recognition and cloud computing | |
Xu et al. | Interaction content aware network embedding via co-embedding of nodes and edges | |
Liu et al. | Learning robust graph hashing for efficient similarity search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180911 |