CN112214623A - 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 - Google Patents
一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 Download PDFInfo
- Publication number
- CN112214623A CN112214623A CN202010943065.5A CN202010943065A CN112214623A CN 112214623 A CN112214623 A CN 112214623A CN 202010943065 A CN202010943065 A CN 202010943065A CN 112214623 A CN112214623 A CN 112214623A
- Authority
- CN
- China
- Prior art keywords
- sample
- image
- matrix
- text
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及多媒体技术领域,具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,该方法包括以下步骤:构建图文样对本集,标注样本对的语义类别;提取样本集中图像和文本样本的特征,利用径向基高斯核函数将特征映射到非线性空间;利用样本对的类别标签构建样本对的图邻接矩阵,得到Laplace矩阵;利用线性映射将类别标签映射到潜在语义空间,并保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵;学习正交旋转矩阵最小化量化误差;提出离散迭代优化算法,得到哈希码的离散解;本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码,提升算法检索性能。
Description
技术领域
本发明涉及多媒体技术领域,具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法。
背景技术
随着网络技术和便携式移动设备的快速发展,越来越多的人习惯于通过网络分享生活中的点滴,例如某人过生日的时候,通过微信、脸谱等社交软件发布生日照片(图像)并描述自己的心情(文本)等,使得网络上的数据***式增长,用户如何在海量数据中查找所需的信息成为一个挑战。一方面,网络上数据量大,而且样本特征的维度通常非常高,甚至可达上万维。传统的检索方法需要计算查询样本与所有待检索样本的距离,例如欧式距离、余弦距离等,这会造成过高的计算复杂度和内存开销。另一方面,网络上数据的模态多,而且各模态表示异构,如何衡量异构样本的相似度成为一个挑战。跨媒体哈希方法可以很好地解决上面两个问题。监督跨媒体哈希方法,可以利用含有高层语义的类别标签学习哈希码,提升了哈希码的区分能力,取得了令人满意的检索性能。但大部分方法存在以下问题,需要更进一步解决:1)大多数方法不能充分利用类别标签提升哈希码的性能,现有方法主要通过保持基于两两相似矩阵的相似度学习哈希码,然而两两相似矩阵不仅会造成类别信息的丢失,而且会导致较高的计算复杂度和内存开销;2)大部分现有的离散哈希方法在优化过程中对哈希码矩阵进行逐位求解,会导致较高的计算复杂度。本发明提出一种面向图文样本的监督图嵌入的高效哈希检索方法,可以有效的解决上面的问题。首先为了更好保持样本的语义相似性,本发明提出同时保持样本的模态间、模态内的语义相似性和基于类别标签的相似性,学习哈希码和线性映射矩阵,并学习一个正交旋转矩阵减少量化误差,进一步提升哈希码的区分能力。然后,提出一种迭代优化算法,不仅可直接得到样本的哈希码闭合的离散解,而且降低了算法的计算复杂度。
发明内容
本发明的目的是克服现有技术缺陷,提供了一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于其利用计算机装置实现如下步骤:
步骤1、从网络收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并将图文样本对划分为训练集和测试集;
步骤2、提取训练集和测试集中所有图像和文本样本的特征,并对特征进行归一化和去均值;
步骤3、训练集中的图文样本对的特征用表示,其中,分别为训练集中所有图像样本、文本样本的特征,,表示实数,表示特征的维度,表示训练集中图文样本对的数量,表示样本对的类别标签,其中表示总类别的数量,表示图文样本对的数量;随机选择个样本对作为锚点,其中,,利用高斯径向基函数将所有图像样本、文本样本的特征映射到非线性空间:
步骤6、基于上述步骤1-步骤5的变量,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数,其定义如下:
其中、、、、和为权重参数,和分别表示为图像和文本样本模态学习的线性投影矩阵,表示哈希码的长度,表示矩阵的迹,为线性映射矩阵,为图文样本对学习的哈希码,为正交旋转矩阵,表示尺寸为的单位阵,表示正则化项;
步骤7、利用迭代优化算法求解目标函数,具体包括以下步骤:
然而计算和的计算复杂度和内存开销仍为,本发明提出预定义常量,则、,进一步预定义常量,则可写为,而计算的计算复杂度和内存开销为;对于可改写为,而计算此项的计算复杂度和内存开销为,因此计算的复杂度和内存开销都减少为;
可得:
步骤76、重复步骤71-步骤75,直到算法收敛或达到最大迭代次数;
步骤9、利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码:
本发明与现有技术相比,其有益效果在于:
2、利用保持模态内、模态间的语义相似性和基于标签的相似性学习哈希哈希码,提升了哈希码的性能。
3、利用监督的方式学习一个正交旋转矩阵减少量化误差,进一步增强了哈希码的区分能力,提升了算法的性能。
附图说明
图1为本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法的步骤流程图。
具体实施方式
为对本发明的技术方案进行更完整、清楚地描述,以下结合具体实施方式对本发明进一步详细描述,应当理解,此处所描述的实施例仅是说明和解释本发明,并不是用于限定本发明的保护范围。
本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法,在互联网上收集图像和文本样本,并将来源于同一网页的图像和文本样本构成样本对,建立图文样对本集,标注样本对的类别,并将图文样本集划分为训练集和测试集;提取训练集和测试集中所有图像和文本样本的特征,并利用径向基高斯核函数将其特征映射到非线性空间;利用样本对的类别标签构建样本对的图邻接矩阵,并进一步得到图的Laplace矩阵;利用线性映射将类别标签映射到一个潜在语义空间,并在此空间通过保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵;通过学习一个正交旋转矩阵最小化量化误差;提出一种高效的离散迭代优化算法,通过预定义几个常量避免直接利用Laplace矩阵求解,提升了算法的高效性,并可直接得到哈希码的离散解;本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码,提升了算法的检索性能。
参见图1,一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于其利用计算机装置实现如下步骤:
第一步:从网络上收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并随机选择75%的图文样本对构成训练集,剩余的构成测试集;
第二步:提取所有图像样本的150维纹理特征、所有文本样本的500维BOW(Bag OfWords)特征,并对特征进行归一化和去均值;
第三步:训练集中图文样本对的特征用表示,其中,分别表示训练集中所有图像、文本样本的特征,,,表示样本对的数量,表示样本对的类别标签,其中表示样本类别的数量;随机选择500个样本(其中)作为锚点,利用高斯径向基函数将样本的特征映射到非线性空间:
第六步:基于上述的变量,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数,其定义如下:
然而计算和的复杂度和内存开销仍为,本发明提出预定义常量,则、,进一步预定义常量,则可写为,而计算的复杂度和内存开销为;对于可改写为,而计算此项的复杂度和内存开销为,因此计算的复杂度和内存开销都减少为;
可得:
第八步:用户输入查询样本,也可以为图像也可为文本,如果输入图像则提取其150维的纹理特征,如果输入文本则提取其500维的BOW特征,将特征进行归一化和去均值,并利用高斯径向基函数将样本的特征映射到非线性空间,得到查询样本的表示;
第九步:利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码:
本实施例在公开样本集Mirflickr25K上验证本发明方法的有效性,此样本集包含20015个从社交网站Flickr上收集的图像文本对,这些样本对包含24个语义类别;本实施例随机选取75%的图文样本对作为训练集,剩余的25%作为测试集;每张图像表示为150维的Gist特征(纹理特征),文本表示为500维的BOW(Bag Of Words)特征,并对特征做归一化、去均值处理;为评价本发明方法的检索性能,在此用平均准确率(Mean AveragePrecision,MAP@100)作为评价标准,即MAP由前100个返回的样本计算,不同哈希码长在图像检索文本和文本检索图像两个任务上的MAP@100结果,如表1所示为本发明在Mirflickr25K样本集上的MAP@100结果,结果显示本发明方法的检索性能其平均准确率明显高于已有技术。
表 1
Claims (4)
1.一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,步骤如下:
步骤1、从网络收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并将图文样本对划分为训练集和测试集;
步骤2、提取训练集和测试集中所有图像和文本样本的特征,并对特征进行归一化和去均值;
步骤3、训练集中的图文样本对的特征用表示,其中、分别表示训练集中所有图像样本、文本样本的特征,,表示实数,表示特征的维度,表示训练集中图文样本对的数量, 表示样本对的类别标签,其中表示总类别数,表示图文样本对的数量;随机选择个样本对作为锚点,其中,,利用高斯径向基函数将所有图像样本、文本样本的特征映射到非线性空间:
步骤6、结合步骤1-步骤5,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数;
步骤7、利用迭代优化算法求解目标函数;
步骤9、利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码;
3.如权利要求1或2所述的一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,步骤7中求解目标函数具体包括以下步骤:
可得:
步骤76、重复步骤71-步骤75,直到算法收敛或达到最大迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943065.5A CN112214623A (zh) | 2020-09-09 | 2020-09-09 | 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943065.5A CN112214623A (zh) | 2020-09-09 | 2020-09-09 | 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112214623A true CN112214623A (zh) | 2021-01-12 |
Family
ID=74049225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010943065.5A Withdrawn CN112214623A (zh) | 2020-09-09 | 2020-09-09 | 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214623A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191445A (zh) * | 2021-05-16 | 2021-07-30 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113407661A (zh) * | 2021-08-18 | 2021-09-17 | 鲁东大学 | 基于鲁棒矩阵分解的离散哈希检索方法 |
CN113868366A (zh) * | 2021-12-06 | 2021-12-31 | 山东大学 | 一种面向流数据的在线跨模态检索方法与*** |
CN117315687A (zh) * | 2023-11-10 | 2023-12-29 | 哈尔滨理工大学 | 一种面向单类别低信息量数据的图文匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
CN109871454A (zh) * | 2019-01-31 | 2019-06-11 | 鲁东大学 | 一种鲁棒离散监督跨媒体哈希检索方法 |
CN110110100A (zh) * | 2019-05-07 | 2019-08-09 | 鲁东大学 | 基于协同矩阵分解的离散监督跨媒体哈希检索方法 |
-
2020
- 2020-09-09 CN CN202010943065.5A patent/CN112214623A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256271A (zh) * | 2017-06-27 | 2017-10-17 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
CN109871454A (zh) * | 2019-01-31 | 2019-06-11 | 鲁东大学 | 一种鲁棒离散监督跨媒体哈希检索方法 |
CN110110100A (zh) * | 2019-05-07 | 2019-08-09 | 鲁东大学 | 基于协同矩阵分解的离散监督跨媒体哈希检索方法 |
Non-Patent Citations (2)
Title |
---|
TAO YAO,LIANSHAN YAN, YILAN MA, HONG YU, QINGTANG SU: "《Fast discrete cross-modal hashing with semantic consistency》", 《NEURAL NETWORKS》 * |
姚涛: "《基于哈希方法的跨媒体检索研究》", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191445A (zh) * | 2021-05-16 | 2021-07-30 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113191445B (zh) * | 2021-05-16 | 2022-07-19 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113407661A (zh) * | 2021-08-18 | 2021-09-17 | 鲁东大学 | 基于鲁棒矩阵分解的离散哈希检索方法 |
CN113868366A (zh) * | 2021-12-06 | 2021-12-31 | 山东大学 | 一种面向流数据的在线跨模态检索方法与*** |
CN117315687A (zh) * | 2023-11-10 | 2023-12-29 | 哈尔滨理工大学 | 一种面向单类别低信息量数据的图文匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
Kulis et al. | Fast similarity search for learned metrics | |
CN112214623A (zh) | 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 | |
CN106033426B (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
Kulis et al. | Kernelized locality-sensitive hashing | |
CN102549603B (zh) | 基于相关性的图像选择 | |
Ge et al. | Graph cuts for supervised binary coding | |
Unar et al. | Detected text‐based image retrieval approach for textual images | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN109697451B (zh) | 相似图像聚类方法及装置、存储介质、电子设备 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
Huang et al. | Object-location-aware hashing for multi-label image retrieval via automatic mask learning | |
CN109871454B (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
Ali et al. | Modeling global geometric spatial information for rotation invariant classification of satellite images | |
CN110943981A (zh) | 基于层次学习的跨架构漏洞挖掘方法 | |
Choi et al. | Face video retrieval based on the deep CNN with RBF loss | |
Liu et al. | An indoor scene classification method for service robot Based on CNN feature | |
CN116304307A (zh) | 一种图文跨模态检索网络训练方法、应用方法及电子设备 | |
Al-Jubouri | Content-based image retrieval: Survey | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及*** | |
CN108647295B (zh) | 一种基于深度协同哈希的图片标注方法 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
CN107133348B (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
Sun et al. | Search by detection: Object-level feature for image retrieval | |
CN112182144A (zh) | 搜索词标准化方法、计算设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210112 |
|
WW01 | Invention patent application withdrawn after publication |