CN110059198A

CN110059198A - 一种基于相似性保持的跨模态数据的离散哈希检索方法

Info

Publication number: CN110059198A
Application number: CN201910277146.3A
Authority: CN
Inventors: 孔祥维; 李明阳
Original assignee: Dalian University of Technology; Zhejiang University ZJU
Current assignee: Dalian University of Technology; Zhejiang University ZJU
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-07-26
Anticipated expiration: 2039-04-08
Also published as: CN110059198B

Abstract

本发明公开了一种基于相似性保持的跨模态数据的离散哈希检索方法。建立由包含两个模态的样本构成的跨模态检索数据集，分为训练集和测试集；建立保持模态间相似性和模态内相似性的目标函数，通过一种离散优化方法对目标函数进行求解获得哈希码矩阵；根据哈希码矩阵学习各个模态的哈希函数；利用哈希函数计算训练集和测试集中所有样本的哈希码；一个模态测试集为查询集，另一个模态训练集为检索集，计算查询集中样本的哈希码和检索集中样本的哈希码之间汉明距离，排序作为检索结果。本发明可有效地保持模态间的相似性和模态内的相似性，并且考虑了哈希码的离散特性，采用一种离散优化的方法对目标函数进行求解，从而提高跨模态检索的准确性。

Description

一种基于相似性保持的跨模态数据的离散哈希检索方法

技术领域

本发明涉及了一种多媒体检索技术领域的一种跨模态检索方法，尤其是涉及一种基于相似性保持的跨模态数据的离散哈希检索方法。

背景技术

随着互联网信息技术的快速发展，网络上各种模态的多媒体信息呈***式增长。顺应发展趋势，跨模态检索成为了一个至关重要的问题，吸引了很多的研究人员的注意。跨模态检索典型场景就是给定一个模态的查询样本，检索出与之相似的其他模态。但是由于异构鸿沟的存在，无法直接衡量不同模态间的相似性。此外，由于数据的***性增长，关注大规模检索的存储成本和效率是很有必要的。哈希方法是近年来非常流行的方法，目标在于将数据映射为紧凑的二进制码。通过哈希，可以使用较低的存储空间来保存数据，并通过汉明距离来衡量不同模态之间的相似性，而汉明距离可以通过比特位的异或操作快速计算。

近年来，研究者已经提出了许多跨模态哈希方法。大部分跨模态哈希方法的主要思路是利用训练数据来学习哈希函数，将原始空间中的特征映射到一个公共的汉明空间，而且哈希函数应该保持原始特征空间中的语义相关性。接下来简单介绍一些典型的和较新的跨模态方法。CVH由单模态的谱哈希扩展而来，将带权重的距离最小化。IMH通过保持模态间和模态内一致性来学习线性哈希函数。CMFH采用协同矩阵因子分解，对一个样本的不同模态学习统一的哈希码。SMFH是基于联合矩阵因子分解，同时保持局部的几何一致性和标签一致性来学习统一的哈希码。通过保持模态基于图的混合相似性来学习哈希函数。

相似性保持是跨模态哈希方法一个非常重要的问题。大部分方法关注模态间相似性，也就是说，如果一个图像样本和一个文本样本在语义上是相互关联的，那么它们应该有相似哈希码。另外，模态内相似性也很重要。模态内相似性旨在保持每个模态的局部几何结构。一些方法利用图拉普拉斯正则项来保持模态内相似性，然而只关注于属于k近邻之内的样本，在关系矩阵中k近邻之外的样本的权重被设置为0，例如SMFH。这样，原始特征空间中相似样本将得到相似的哈希码，但是不相似样本的哈希码不一定不相似，因为它们没有受到限制。此外，哈希码是二进制码，学习二进制码是一个离散优化问题，该问题通常是NP困难问题。大多数现有的跨模态哈希方法采用的策略是将原始的离散约束放松为连续约束，再优化目标函数，然后将获得的连续值量化为二进制码。然而，这种放松策略会影响检索性能。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于相似性保持的跨模态数据的离散哈希检索方法。

本发明采用的技术方案包括以下步骤：

1)在服务器的数据库中建立由包含两个模态的样本构成的跨模态检索数据集，样本的两个模态分别为图像模态和文本模态，将数据集分为训练集和测试集；

2)建立保持模态间相似性和模态内相似性的目标函数，并通过一种离散优化方法对目标函数进行求解，获得哈希码矩阵；

3)根据步骤2)学习好的哈希码矩阵，学习各个模态的哈希函数；

4)利用哈希函数计算训练集和测试集中所有样本的哈希码；

5)将一个模态的测试集作为查询集，将另一个模态的训练集作为检索集，根据步骤4)方式得到哈希码，计算查询集中样本的哈希码和检索集中样本的哈希码之间的汉明距离，根据汉明距离从小到大的顺序对检索集中样本进行排序，排序靠前的样本将被作为检索结果。

所述步骤1)具体为：

从网页上收集图像和文本，将对应含义相同的一幅图像和一个文本构成一个图像文本对，含义相同指描述的是同一事物，例如一幅人冲浪的图像和一个描述人冲浪的文本就构成一个图像文本对；从而由各个图像文本对构建跨模态检索数据集，一个图像文本对的图像特征和文本特征构成一个样本；跨模态检索数据集的训练集有n个样本，每个样本包含图像和文本两个模态的特征，X⁽¹⁾表示n个图像模态的特征构成的图像模态矩阵，每一列代表了一个样本的图像模态的特征，表示第p个样本的图像模态的特征，即为图像模态矩阵的第p列，其中d₁表示图像模态的特征的维度，R表示实数集；X⁽²⁾表示n个文本模态的特征构成的文本模态矩阵，每一列代表了一个样本的文本模态的特征，表示第p个样本的文本模态的特征，即为文本模态矩阵的第p列，其中d₂表示文本模态的特征的维度；由两个模态对应的特征和组成了样本特征；

Y＝{y₁,y₂,…,y_n}表示标签矩阵，Y∈{0,1}^c×n，其中c表示类别总数，y_p表示第p 个样本的标签向量，即标签矩阵的第p列，y_p＝{y_1p,y_2p,…,y_ip,…,y_np}，y_ip表示第p 个样本在第i类类别的标签；如果第p个样本属于第i类，那么标签矩阵Y中第i行第p列的元素y_ip＝1，否则y_ip＝0。

本发明将数据集分为训练集和测试集，对图像和文本分别提取特征，训练集中包含用作训练的图像特征和文本特征，测试集中包含用作测试的图像特征和文本特征。

所述步骤2)具体包括：

2.1)对于同一样本的两种不同模态，学习到相同的哈希码，能保持模态间的相似性。先根据标签矩阵Y用余弦相似度构建相似性矩阵S，S中第p行第q列的元素为S_pq＝y_p·y_q/(||y_p||₂||y_q||₂)，其中，p和q均为样本的序数，y_p·y_q表示第p个样本的标签向量y_p与第q个样本的标签向量y_q之间的内积，||y_p||₂和||y_q||₂分别表示第p个样本的标签向量y_p和第q个样本的标签向量y_q的二范数；

接着，建立以下保持模态间相似性的损失函数：其中是 F范数的平方，B表示所有样本的哈希码构成的哈希码矩阵，B∈{-1,1}^k×n，其中k 是哈希码的长度；

2.2)针对一个模态，希望可以保持样本的局部几何结构，即对于在原始特征空间中相似的样本，希望映射到汉明空间后，它们的哈希码也相似。通过采用图正则项来保持模态内的相似性，针对第m个模态(m＝1表示图像模态，m＝2 表示文本模态)，建立以下保持模态内相似性的损失函数：

其中，b_p和b_q分别是哈希码矩阵B的第p列和第q列，W^(m)是第m个模态的权重矩阵，是权重矩阵W^(m)的第p行第q列的元素，L_m是第m个模态的拉普拉斯矩阵，D^(m)是第m个模态的对角阵，表示对角阵D^(m)的第p行第q列的元素，L_m＝D^(m)-W^(m)；tr(·)表示矩阵的迹，表示2范数的平方；

本方法不仅考虑距离某一样本很近的样本，也考虑距离某一样本很远的样本，上述权重矩阵W^(m)中的元素具体为，这样能获得更有区别性的哈希码：

其中，e为自然常数，表示第m个模态中与样本特征距离最近的k₁个样本特征构成的集合，表示第m个模态中与样本特征距离最远的k₂个样本特征构成的集合，μ是权衡参数，σ的值取最大的

在集合中，与样本特征距离越近，权重设置得越大；在集合中，与样本特征距离越远，权重的绝对值设置得越大。按照上述公式设置权重，既可以使相似的样本映射后的哈希码距离近，又可以使不相似的样本映射后的哈希码距离远。

2.3)结合保持模态间相似性的损失函数和保持模态内相似性的损失函数建立以下学习哈希码的总体目标函数为：

s.t.B∈{-1,1}^k×n

其中，α表示保持模态间相似性的损失函数的权衡参数，β₁表示保持图像模态的模态内相似性的损失函数的权衡参数，β₂表示保持文本模态的模态内相似性的损失函数的权衡参数，T表示矩阵转置；

2.4)由于哈希码离散约束的存在，求解步骤2.1)的目标函数是一个NP问题，采用一种离散优化方法进行求解总体目标函数，具体来说：

2.4.1)随机初始化哈希码矩阵B⁽⁰⁾∈{-1,1}^k×n，B⁽⁰⁾表示初始的哈希码矩阵B；即哈希码矩阵B初始随机生成，其中的元素选为-1或者1。

2.4.2)采用以下过程进行迭代求解：

先求总体目标函数的梯度：

然后迭代处理，采用以下公式根据第j次迭代得到的离散的哈希码矩阵B^(j)处理得到第(j+1)次迭代的哈希码矩阵B^(j+1)：

其中，λ是学习率；B^(j)表示第j次迭代得到的哈希码矩阵，B^(j+1)表示第(j+1) 次迭代得到的哈希码矩阵B^(j+1)；

根据上述迭代公式更新哈希码矩阵完成优化过程，得到最佳的哈希码矩阵B。

所述步骤3)中，哈希函数采用简单的线性映射h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)，学习哈希函数即为学习两个映射矩阵P₁和P₂，其中P₁表示图像模态的映射矩阵，P₂表示文本模态的映射矩阵，x⁽¹⁾表示样本中图像模态的特征，x⁽²⁾表示样本中文本模态的特征；

求解以下公式获得映射矩阵P₁和P₂：

其中，表示学习映射矩阵的损失函数，γ是权衡参数；

通过令求解计算获得P₁：P₁＝(X⁽¹⁾X^(1)T+γI)^-1X⁽¹⁾B^T，I表示单位矩阵；

通过令求解计算获得P₂：P₂＝(X⁽²⁾X^(2)T+γI)^-1X⁽²⁾B^T。

所述步骤4)中，训练集和测试集图像模态的哈希码用公式h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)计算，其中x⁽¹⁾表示样本的图像模态的特征，h₁(x⁽¹⁾)表示由该样本图像模态的特征 x⁽¹⁾计算出的哈希码；训练集和测试集文本模态的哈希码用公式计算，其中x⁽²⁾表示样本文本模态的特征，h₂(x⁽²⁾)表示由该样本文本模态的特征x⁽²⁾计算出的哈希码。

本发明在步骤2)和步骤3)训练结束后只保留映射矩阵P₁,P₂而抛弃步骤2) 学习好的训练集的哈希码。

本发明的有益效果是：

本发明可有效地同时保持的模态间相似性和模态内相似性，并且不仅关注相似样本的哈希码，也关注了不相似样本的哈希码，本发明方法使得原始特征空间中不相似的样本在映射到汉明空间后得到不相似的哈希码，相似的样本也得到相似的哈希码，哈希码更有区别性，解决了学习离散哈希码的数据检索问题。

本发明考虑了哈希码的离散特性，采用一种离散优化的方法对目标函数进行求解，从而提高跨模态数据检索的准确性。

附图说明

图1为本发明实施步骤流程图。

图2为在跨模态数据集Wiki上图像检索文本的一个实例示意图。

图3为在跨模态数据集Wiki上文本检索图像的一个实例示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明的具体实施例情况如下：

具体实施是以流程图和跨模态数据集Wiki对本发明的技术方案作进一步说明；其中，跨模态数据集Wiki来源于来源于***，包含从***文章中收集的2866个图像文本对。图像用128维的SIFT特征表示，文本用10维的LDA 特征表示。Wiki数据集的图像文本对分为10个语义类别，每一个图像文本对属于其中的一类。随机选择2173个样本构成训练集，其余的693个样本构成测试集。

1)在服务器的数据库中建立由包含两个模态的样本构成的跨模态检索数据集，样本的两个模态分别为图像模态和文本模态，将数据集分为训练集和测试集。

从网页上收集图像和文本，将对应含义相同的一幅图像和一个文本构成一个图像文本对，含义相同指描述的是同一事物，例如一幅人冲浪的图像和一个描述人冲浪的文本就构成一个图像文本对；从而由各个图像文本对构建跨模态检索数据集，一个图像文本对的图像特征和文本特征构成一个样本。

跨模态检索数据集的训练集有n个样本，每个样本包含图像和文本两个模态的特征，X⁽¹⁾表示n个图像模态的特征构成的图像模态矩阵，表示第p个样本的图像模态的特征，其中d₁表示图像模态的特征的维度，R表示实数集；X⁽²⁾表示n个文本模态的特征构成的文本模态矩阵，表示第p个样本的文本模态的特征，其中d₂表示文本模态的特征的维度；由两个模态对应的特征和组成了样本特征； Y＝{y₁,y₂,…,y_n}表示标签矩阵，Y∈{0,1}^c×n，其中c表示类别总数，y_p表示第p个样本的标签向量，y_p＝{y_1p,y_2p,…,y_ip,…,y_np}，y_ip表示第p个样本在第i类类别的标签；如果第p个样本属于第i类，那么标签矩阵Y中第i行第p列的元素y_ip＝1，否则y_ip＝0。

2)建立保持模态间相似性和模态内相似性的目标函数，并通过一种离散优化方法对目标函数进行求解，获得哈希码矩阵，为训练集学习哈希码。

2.1)先根据标签矩阵Y用余弦相似度构建相似性矩阵S，S中第p行第q列的元素为S_pq＝y_p·y_q/(||y_p||₂||y_q||₂)，其中，p和q均为样本的序数，y_p·y_q表示第p个样本的标签向量y_p与第q个样本的标签向量y_q之间的内积，||y_p||₂和||y_q||₂分别表示第p个样本的标签向量y_p和第q个样本的标签向量y_q的二范数；

2.2)通过采用图正则项来保持模态内的相似性，针对第m个模态(m＝1表示图像模态，m＝2表示文本模态)，建立以下保持模态内相似性的损失函数：

上述权重矩阵W^(m)中的元素具体为：

s.t.B∈{-1,1}^k×n

2.4)采用一种离散优化方法进行求解总体目标函数，具体来说：

2.4.2)采用以下过程进行迭代求解：

先求总体目标函数的梯度：

3)根据步骤2)学习好的哈希码矩阵，学习各个模态的哈希函数。

哈希函数采用简单的线性映射h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)，学习哈希函数即为学习两个映射矩阵P₁和P₂，其中P₁表示图像模态的映射矩阵，P₂表示文本模态的映射矩阵，x⁽¹⁾表示某一样本中图像模态的特征，x⁽²⁾表示某一样本中文本模态的特征；

求解以下公式获得映射矩阵P₁和P₂：

通过令求解计算获得P₁：P₁＝(X⁽¹⁾X^(1)T+γI)^-1X⁽¹⁾B^T；

4)利用哈希函数计算训练集和测试集中所有样本的哈希码。

训练集和测试集图像模态的哈希码用公式h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)计算，其中x⁽¹⁾表示样本的图像模态的特征，h₁(x⁽¹⁾)表示由该样本图像模态的特征x⁽¹⁾计算出的哈希码；训练集和测试集文本模态的哈希码用公式计算，其中x⁽²⁾表示样本文本模态的特征，h₂(x⁽²⁾)表示由该样本文本模态的特征x⁽²⁾计算出的哈希码。

5)将一个模态的测试集作为查询集，将另一个模态的训练集作为检索集，根据步骤4)方式得到哈希码，在计算查询集中样本的哈希码和检索集中样本的哈希码之间的汉明距离，根据汉明距离从小到大的顺序对检索集中样本进行排序，排序靠前的样本将被作为检索结果。

本实施例采用mAP(mean Average Precision)作为评价标准，mAP值越大，说明方法的跨模态检索性能越好。在跨模态数据集Wiki上与CMFH(参见文献 Tang J,Wang K,ShaoL.Supervised matrix factorization hashing for cross-modal retrieval[J].IEEETransactions on Image Processing,2016,25(7):3157-3166)、 SMFH(Ding G,Guo Y,Zhou J.Collective matrix factorization hashing for multimodal data[C].Proceedings of the IEEE conference on computer vision and patternrecognition.2014:2075-2082.)、FSH(Liu H,Ji R,Wu Y,et al. Cross-modality binarycode learning via fusion similarity hashing[C].Proceedings of CVPR.2017:6345-6353.)的三种跨模态哈希方法进行比较，在哈希码长度为16 比特时返回前100个样本的mAP值如表1所示。

表1 Wiki数据集上的mAP值

方法	图像检索文本	文本检索图像
			CMFH	0.2295	0.3479
SMFH	0.2411	0.3658
			FSH	0.2408	0.3871
本发明	0.2455	0.4086

从表1可以看出，与三种对比方法相比，本发明方法取得了最高的mAP值，跨模态检索性能最佳。

图2给出了一个在跨模态数据集Wiki上图像检索文本的一个实例，返回的是排序在前6的文本，图像和文本的上方给出了所属的语义类别。查询图像属于geography类，实线框表示检索到的文本与查询图像属于同一语义类别，虚线框表示检索到的文本与查询图像不属于同一语义类别。从这一实例的检索结果中可以看出，本发明提供的方法优于对比方法。

图3给出了一个在跨模态数据集Wiki上文本检索图像的一个实例，返回的是排序在前6的图像，图像和文本的上方给出了所属的语义类别。查询文本属于literature类，图片外无框表示检索到的图像与查询文本属于同一语义类别，图片外有虚线框表示检索到的图像与查询文本不属于同一语义类别。从这一实例的检索结果中可以看出，本发明提供的方法优于对比方法。

综上所述，本发明方法可有效地保持模态间的相似性和模态内的相似性，并且不仅关注了相似样本的哈希码，也关注了不相似样本的哈希码，有利于学习更有区别性的哈希码，而且采用一种离散优化方法来解决学习离散的哈希码的问题，从而提高跨模态检索的准确性。

Claims

1.一种基于相似性保持的跨模态数据的离散哈希检索方法，其特征在于：方法包括如下步骤：

4)利用哈希函数计算训练集和测试集中所有样本的哈希码；

2.根据权利要求1所述的一种基于相似性保持的跨模态数据的离散哈希检索方法，其特征在于：所述步骤1)具体为：

从网页上收集图像和文本，将对应含义相同的一幅图像和一个文本构成一个图像文本对，从而由各个图像文本对构建跨模态检索数据集，一个图像文本对的图像特征和文本特征构成一个样本；跨模态检索数据集的训练集有n个样本，每个样本包含图像和文本两个模态的特征，X⁽¹⁾表示n个图像模态的特征构成的图像模态矩阵，表示第p个样本的图像模态的特征，其中d₁表示图像模态的特征的维度，R表示实数集；X⁽²⁾表示n个文本模态的特征构成的文本模态矩阵，表示第p个样本的文本模态的特征，其中d₂表示文本模态的特征的维度；由两个模态对应的特征和组成了样本特征；Y＝{y₁,y₂,…,y_n}表示标签矩阵，Y∈{0,1}^c×n，其中c表示类别总数，y_p表示第p个样本的标签向量，y_p＝{y_1p,y_2p,…,y_ip,…,y_np}，y_ip表示第p个样本在第i类类别的标签。

3.根据权利要求1所述的一种基于相似性保持的跨模态数据的离散哈希检索方法，其特征在于：所述步骤2)具体包括：

接着，建立以下保持模态间相似性的损失函数：其中是F范数的平方，B表示所有样本的哈希码构成的哈希码矩阵，B∈{-1,1}^k×n，其中k是哈希码的长度；

2.2)针对第m个模态(m＝1表示图像模态，m＝2表示文本模态)，建立以下保持模态内相似性的损失函数：

上述权重矩阵W^(m)中的元素具体为：

s.t.B∈{-1,1}^k×n

2.4.1)随机初始化哈希码矩阵B⁽⁰⁾∈{-1,1}^k×n，B⁽⁰⁾表示初始的哈希码矩阵B；

2.4.2)采用以下过程进行迭代求解：

先求总体目标函数的梯度：

其中，λ是学习率；B^(j)表示第j次迭代得到的哈希码矩阵，B^(j+1)表示第(j+1)次迭代得到的哈希码矩阵B^(j+1)；

4.根据权利要求1所述的一种基于相似性保持的跨模态数据的离散哈希检索方法，其特征在于：所述步骤3)中，哈希函数采用简单的线性映射h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)，h₂(x⁽²⁾)＝sign(P₂ ^Tx⁽²⁾)，学习哈希函数即为学习两个映射矩阵P₁和P₂，其中P₁表示图像模态的映射矩阵，P₂表示文本模态的映射矩阵，x⁽¹⁾表示样本中图像模态的特征，x⁽²⁾表示样本中文本模态的特征；

求解以下公式获得映射矩阵P₁和P₂：

其中，表示学习映射矩阵的损失函数，γ是权衡参数；

5.根据权利要求1所述的一种基于相似性保持的跨模态数据的离散哈希检索方法，其特征在于：所述步骤4)中，训练集和测试集图像模态的哈希码用公式h₁(x⁽¹⁾)＝sign(P₁ ^Tx⁽¹⁾)计算，其中x⁽¹⁾表示样本的图像模态的特征，h₁(x⁽¹⁾)表示由该样本图像模态的特征x⁽¹⁾计算出的哈希码；训练集和测试集文本模态的哈希码用公式计算，其中x⁽²⁾表示样本文本模态的特征，h₂(x⁽²⁾)表示由该样本文本模态的特征x⁽²⁾计算出的哈希码。