CN112214623A

CN112214623A - 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

Info

Publication number: CN112214623A
Application number: CN202010943065.5A
Authority: CN
Inventors: 姚涛; 刘莉; 闫连山; 贺文伟; 崔光海
Original assignee: Yantai Aidian Information Technology Co ltd; Ludong University
Current assignee: Yantai Aidian Information Technology Co ltd; Ludong University
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-01-12

Abstract

本发明涉及多媒体技术领域，具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法，该方法包括以下步骤：构建图文样对本集，标注样本对的语义类别；提取样本集中图像和文本样本的特征，利用径向基高斯核函数将特征映射到非线性空间；利用样本对的类别标签构建样本对的图邻接矩阵，得到Laplace矩阵；利用线性映射将类别标签映射到潜在语义空间，并保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵；学习正交旋转矩阵最小化量化误差；提出离散迭代优化算法，得到哈希码的离散解；本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码，提升算法检索性能。

Description

一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

技术领域

本发明涉及多媒体技术领域，具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法。

背景技术

随着网络技术和便携式移动设备的快速发展，越来越多的人习惯于通过网络分享生活中的点滴，例如某人过生日的时候，通过微信、脸谱等社交软件发布生日照片（图像）并描述自己的心情（文本）等，使得网络上的数据***式增长，用户如何在海量数据中查找所需的信息成为一个挑战。一方面，网络上数据量大，而且样本特征的维度通常非常高，甚至可达上万维。传统的检索方法需要计算查询样本与所有待检索样本的距离，例如欧式距离、余弦距离等，这会造成过高的计算复杂度和内存开销。另一方面，网络上数据的模态多，而且各模态表示异构，如何衡量异构样本的相似度成为一个挑战。跨媒体哈希方法可以很好地解决上面两个问题。监督跨媒体哈希方法，可以利用含有高层语义的类别标签学习哈希码，提升了哈希码的区分能力，取得了令人满意的检索性能。但大部分方法存在以下问题，需要更进一步解决：1）大多数方法不能充分利用类别标签提升哈希码的性能，现有方法主要通过保持基于两两相似矩阵的相似度学习哈希码，然而两两相似矩阵不仅会造成类别信息的丢失，而且会导致较高的计算复杂度和内存开销；2）大部分现有的离散哈希方法在优化过程中对哈希码矩阵进行逐位求解，会导致较高的计算复杂度。本发明提出一种面向图文样本的监督图嵌入的高效哈希检索方法，可以有效的解决上面的问题。首先为了更好保持样本的语义相似性，本发明提出同时保持样本的模态间、模态内的语义相似性和基于类别标签的相似性，学习哈希码和线性映射矩阵，并学习一个正交旋转矩阵减少量化误差，进一步提升哈希码的区分能力。然后，提出一种迭代优化算法，不仅可直接得到样本的哈希码闭合的离散解，而且降低了算法的计算复杂度。

发明内容

本发明的目的是克服现有技术缺陷，提供了一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法，其特征在于其利用计算机装置实现如下步骤：

步骤1、从网络收集图像和文本样本，并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集，标注图文样本对的类别，并将图文样本对划分为训练集和测试集；

步骤2、提取训练集和测试集中所有图像和文本样本的特征，并对特征进行归一化和去均值；

步骤3、训练集中的图文样本对的特征用

表示，其中

，

分别为训练集中所有图像样本、文本样本的特征，

，

表示实数，

表示特征的维度，

表示训练集中图文样本对的数量，

表示样本对的类别标签，其中

表示总类别的数量，

表示图文样本对的数量；随机选择

个样本对

作为锚点，其中

，

，利用高斯径向基函数将所有图像样本、文本样本的特征映射到非线性空间：

其中

为尺度参数，

表示

范数，

表示矩阵或向量的转置；

步骤4、利用图文样本对的类别标签构造样本对的图邻接矩阵

，

表示实数，其定义如下：

其中，

表示矩阵

的第

行第

列的数值，

表示

范数；

步骤5、进一步得到图邻接矩阵

的Laplace矩阵

，其中

是

的对角阵，其对角元素

；

步骤6、基于上述步骤1-步骤5的变量，利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数，其定义如下：

其中

、

、

、

和

为权重参数，

和

分别表示为图像和文本样本模态学习的线性投影矩阵，

表示哈希码的长度，

表示矩阵的迹，

为线性映射矩阵，

为图文样本对学习的哈希码，

为正交旋转矩阵，

表示尺寸为

的单位阵，

表示正则化项；

步骤7、利用迭代优化算法求解目标函数，具体包括以下步骤：

步骤71、固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

对上式求关于

的导数，并令其等于0，则可得：

由于Laplace矩阵

的尺寸是

的，所以计算

的计算复杂度和内存开销都为

，限制了本发明在大规模样本集的应用，进一步可将上式改写为：

然而计算

和

的计算复杂度和内存开销仍为

，本发明提出预定义常量

，则

、

，进一步预定义常量

，则

可写为

，而计算

的计算复杂度和内存开销为

；对于

可改写为

，而计算此项的计算复杂度和内存开销为

，因此计算

的复杂度和内存开销都减少为

；

步骤72、固定

，

，

和

求解

：与求解

类似，可得：

进一步利用与求解

类似的方法，可将计算

的复杂度和内存开销都减少为

；

步骤73、固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

对上式求关于

的导数，并令其等于0，则可得：

步骤74、固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

上式可由奇异值分解（SVD）算法求解，即

，其中

为左奇异矩阵，

为右奇异矩阵，

为奇异值矩阵，则

；

步骤75、固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

可得：

其中

表示符号函数；

步骤76、重复步骤71-步骤75，直到算法收敛或达到最大迭代次数；

步骤8、用户输入查询样本，样本可以为图像也可为文本，提取其特征，将特征进行归一化和去均值，并利用高斯径向基函数将样本的特征映射到非线性空间，得到查询样本的表示

；

步骤9、利用已学习的线性映射函数和旋转矩阵，生成查询样本的哈希码：

；

步骤10、计算查询样本与样本集中异构样本哈希码的汉明距离，并按汉明距离从小到大排列，返回前

个样本即为检索结果。

本发明与现有技术相比，其有益效果在于：

1、通过引入的常量将基于谱嵌入算法的计算复杂度和内存开销由

降低到

。

2、利用保持模态内、模态间的语义相似性和基于标签的相似性学习哈希哈希码，提升了哈希码的性能。

3、利用监督的方式学习一个正交旋转矩阵减少量化误差，进一步增强了哈希码的区分能力，提升了算法的性能。

附图说明

图1为本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法的步骤流程图。

具体实施方式

为对本发明的技术方案进行更完整、清楚地描述，以下结合具体实施方式对本发明进一步详细描述，应当理解，此处所描述的实施例仅是说明和解释本发明，并不是用于限定本发明的保护范围。

本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法，在互联网上收集图像和文本样本，并将来源于同一网页的图像和文本样本构成样本对，建立图文样对本集，标注样本对的类别，并将图文样本集划分为训练集和测试集；提取训练集和测试集中所有图像和文本样本的特征，并利用径向基高斯核函数将其特征映射到非线性空间；利用样本对的类别标签构建样本对的图邻接矩阵，并进一步得到图的Laplace矩阵；利用线性映射将类别标签映射到一个潜在语义空间，并在此空间通过保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵；通过学习一个正交旋转矩阵最小化量化误差；提出一种高效的离散迭代优化算法，通过预定义几个常量避免直接利用Laplace矩阵求解，提升了算法的高效性，并可直接得到哈希码的离散解；本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码，提升了算法的检索性能。

参见图1，一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法，其特征在于其利用计算机装置实现如下步骤：

第一步：从网络上收集图像和文本样本，并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集，标注图文样本对的类别，并随机选择75%的图文样本对构成训练集，剩余的构成测试集；

第二步：提取所有图像样本的150维纹理特征、所有文本样本的500维BOW（Bag OfWords）特征，并对特征进行归一化和去均值；

第三步：训练集中图文样本对的特征用

表示，其中

，

分别表示训练集中所有图像、文本样本的特征，

，

，

表示样本对的数量，

表示样本对的类别标签，其中

表示样本类别的数量；随机选择500个样本

（其中

）作为锚点，利用高斯径向基函数将样本的特征映射到非线性空间：

其中

，

，

表示

范数；

第四步：利用图文样本对的类别标签构造样本对的图邻接矩阵

，其定义如下：

其中，

表示矩阵

的第

行第

列的数值，

表示

范数；

第五步：进一步得到图邻接矩阵

的Laplace矩阵

，其中

是对角阵，其对角元素

；

第六步：基于上述的变量，利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数，其定义如下：

其中

，

，

，

，

，

，

和

分别表示为图像和文本样本模态学习的线性投影矩阵，

表示哈希码的长度，

表示矩阵的迹，

为线性映射矩阵，

为图文样本对学习的哈希码，

为正交旋转矩阵，

表示尺寸为

的单位阵，

表示正则化项；

第七步：利用迭代优化算法求解目标函数，首先初始化迭代次数

、最大迭代次数

、目标函数的值

（足够大的数）和阈值0.001，具体包括以下步骤：

（1）固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

对上式求关于

的导数，并令其等于0，则可得：

由于Laplace矩阵

的尺寸是

的，所以计算

的复杂度和内存开销都为

然而计算

和

的复杂度和内存开销仍为

，本发明提出预定义常量

，则

、

，进一步预定义常量

，则

可写为

，而计算

的复杂度和内存开销为

；对于

可改写为

，而计算此项的复杂度和内存开销为

，因此计算

的复杂度和内存开销都减少为

；

（2）固定

，

和

求解

：与求解

类似，可得：

进一步利用与求解

类似的方法，可将计算

的复杂度和内存开销都减少为

；

（3）固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

对上式求关于

的导数，并令其等于0，则可得：

（4）固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

上式可由奇异值分解（SVD）算法求解，即

，其中

为左奇异矩阵，

为右奇异矩阵，

为奇异值矩阵，则

；

（5）固定

，

，

和

求解

：去除与

无关的项，则目标函数变为：

可得：

其中

表示符号函数；

（6）计算目标函数的值

，并判断

或

是否成立，如果成立则停止迭代；如果不成立则

、

，并重复执行步骤（1）—（5）；

第八步：用户输入查询样本，也可以为图像也可为文本，如果输入图像则提取其150维的纹理特征，如果输入文本则提取其500维的BOW特征，将特征进行归一化和去均值，并利用高斯径向基函数将样本的特征映射到非线性空间，得到查询样本的表示

；

第九步：利用已学习的线性映射函数和旋转矩阵，生成查询样本的哈希码：

；

第十步：计算查询样本与样本集中异构样本哈希码的汉明距离，并按汉明距离从小到大排列，返回前

个样本即为检索结果。

本实施例在公开样本集Mirflickr25K上验证本发明方法的有效性，此样本集包含20015个从社交网站Flickr上收集的图像文本对，这些样本对包含24个语义类别；本实施例随机选取75%的图文样本对作为训练集，剩余的25%作为测试集；每张图像表示为150维的Gist特征（纹理特征），文本表示为500维的BOW（Bag Of Words）特征，并对特征做归一化、去均值处理；为评价本发明方法的检索性能，在此用平均准确率（Mean AveragePrecision，MAP@100）作为评价标准，即MAP由前100个返回的样本计算，不同哈希码长在图像检索文本和文本检索图像两个任务上的MAP@100结果，如表1所示为本发明在Mirflickr25K样本集上的MAP@100结果，结果显示本发明方法的检索性能其平均准确率明显高于已有技术。

表 1