CN112214623A - 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 - Google Patents

一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 Download PDF

Info

Publication number
CN112214623A
CN112214623A CN202010943065.5A CN202010943065A CN112214623A CN 112214623 A CN112214623 A CN 112214623A CN 202010943065 A CN202010943065 A CN 202010943065A CN 112214623 A CN112214623 A CN 112214623A
Authority
CN
China
Prior art keywords
sample
image
matrix
text
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010943065.5A
Other languages
English (en)
Inventor
姚涛
刘莉
闫连山
贺文伟
崔光海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Aidian Information Technology Co ltd
Ludong University
Original Assignee
Yantai Aidian Information Technology Co ltd
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Aidian Information Technology Co ltd, Ludong University filed Critical Yantai Aidian Information Technology Co ltd
Priority to CN202010943065.5A priority Critical patent/CN112214623A/zh
Publication of CN112214623A publication Critical patent/CN112214623A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多媒体技术领域,具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,该方法包括以下步骤:构建图文样对本集,标注样本对的语义类别;提取样本集中图像和文本样本的特征,利用径向基高斯核函数将特征映射到非线性空间;利用样本对的类别标签构建样本对的图邻接矩阵,得到Laplace矩阵;利用线性映射将类别标签映射到潜在语义空间,并保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵;学习正交旋转矩阵最小化量化误差;提出离散迭代优化算法,得到哈希码的离散解;本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码,提升算法检索性能。

Description

一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
技术领域
本发明涉及多媒体技术领域,具体为一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法。
背景技术
随着网络技术和便携式移动设备的快速发展,越来越多的人习惯于通过网络分享生活中的点滴,例如某人过生日的时候,通过微信、脸谱等社交软件发布生日照片(图像)并描述自己的心情(文本)等,使得网络上的数据***式增长,用户如何在海量数据中查找所需的信息成为一个挑战。一方面,网络上数据量大,而且样本特征的维度通常非常高,甚至可达上万维。传统的检索方法需要计算查询样本与所有待检索样本的距离,例如欧式距离、余弦距离等,这会造成过高的计算复杂度和内存开销。另一方面,网络上数据的模态多,而且各模态表示异构,如何衡量异构样本的相似度成为一个挑战。跨媒体哈希方法可以很好地解决上面两个问题。监督跨媒体哈希方法,可以利用含有高层语义的类别标签学习哈希码,提升了哈希码的区分能力,取得了令人满意的检索性能。但大部分方法存在以下问题,需要更进一步解决:1)大多数方法不能充分利用类别标签提升哈希码的性能,现有方法主要通过保持基于两两相似矩阵的相似度学习哈希码,然而两两相似矩阵不仅会造成类别信息的丢失,而且会导致较高的计算复杂度和内存开销;2)大部分现有的离散哈希方法在优化过程中对哈希码矩阵进行逐位求解,会导致较高的计算复杂度。本发明提出一种面向图文样本的监督图嵌入的高效哈希检索方法,可以有效的解决上面的问题。首先为了更好保持样本的语义相似性,本发明提出同时保持样本的模态间、模态内的语义相似性和基于类别标签的相似性,学习哈希码和线性映射矩阵,并学习一个正交旋转矩阵减少量化误差,进一步提升哈希码的区分能力。然后,提出一种迭代优化算法,不仅可直接得到样本的哈希码闭合的离散解,而且降低了算法的计算复杂度。
发明内容
本发明的目的是克服现有技术缺陷,提供了一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于其利用计算机装置实现如下步骤:
步骤1、从网络收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并将图文样本对划分为训练集和测试集;
步骤2、提取训练集和测试集中所有图像和文本样本的特征,并对特征进行归一化和去均值;
步骤3、训练集中的图文样本对的特征用
Figure DEST_PATH_IMAGE001
表示,其中
Figure 593037DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
分别为训练集中所有图像样本、文本样本的特征,
Figure 203141DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
表示实数,
Figure 811976DEST_PATH_IMAGE006
表示特征的维度,
Figure DEST_PATH_IMAGE007
表示训练集中图文样本对的数量,
Figure 47786DEST_PATH_IMAGE008
表示样本对的类别标签,其中
Figure DEST_PATH_IMAGE009
表示总类别的数量,
Figure 372981DEST_PATH_IMAGE010
表示图文样本对的数量;随机选择
Figure DEST_PATH_IMAGE011
个样本对
Figure 340937DEST_PATH_IMAGE012
作为锚点,其中
Figure DEST_PATH_IMAGE013
Figure 499386DEST_PATH_IMAGE014
,利用高斯径向基函数将所有图像样本、文本样本的特征映射到非线性空间:
Figure DEST_PATH_IMAGE015
其中
Figure 24040DEST_PATH_IMAGE016
为尺度参数,
Figure DEST_PATH_IMAGE017
表示
Figure 951544DEST_PATH_IMAGE018
范数,
Figure DEST_PATH_IMAGE019
表示矩阵或向量的转置;
步骤4、利用图文样本对的类别标签构造样本对的图邻接矩阵
Figure 90402DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
表示实数,其定义如下:
Figure 985414DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示矩阵
Figure 297447DEST_PATH_IMAGE024
的第
Figure DEST_PATH_IMAGE025
行第
Figure 95770DEST_PATH_IMAGE026
列的数值,
Figure DEST_PATH_IMAGE027
表示
Figure 405528DEST_PATH_IMAGE028
范数;
步骤5、进一步得到图邻接矩阵
Figure 538569DEST_PATH_IMAGE024
的Laplace矩阵
Figure DEST_PATH_IMAGE029
,其中
Figure 591976DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
的对角阵,其对角元素
Figure 746270DEST_PATH_IMAGE032
步骤6、基于上述步骤1-步骤5的变量,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数,其定义如下:
Figure DEST_PATH_IMAGE033
其中
Figure 289247DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure 581688DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure 251835DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
为权重参数,
Figure 8438DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
分别表示为图像和文本样本模态学习的线性投影矩阵,
Figure 971584DEST_PATH_IMAGE042
表示哈希码的长度,
Figure DEST_PATH_IMAGE043
表示矩阵的迹,
Figure 892267DEST_PATH_IMAGE044
为线性映射矩阵,
Figure DEST_PATH_IMAGE045
为图文样本对学习的哈希码,
Figure 287476DEST_PATH_IMAGE046
为正交旋转矩阵,
Figure DEST_PATH_IMAGE047
表示尺寸为
Figure 898586DEST_PATH_IMAGE048
的单位阵,
Figure DEST_PATH_IMAGE049
表示正则化项;
步骤7、利用迭代优化算法求解目标函数,具体包括以下步骤:
步骤71、固定
Figure 301142DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
Figure 995604DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
求解
Figure 506089DEST_PATH_IMAGE054
:去除与
Figure DEST_PATH_IMAGE055
无关的项,则目标函数变为:
Figure 971705DEST_PATH_IMAGE056
对上式求关于
Figure DEST_PATH_IMAGE057
的导数,并令其等于0,则可得:
Figure 43697DEST_PATH_IMAGE058
由于Laplace矩阵
Figure DEST_PATH_IMAGE059
的尺寸是
Figure 798027DEST_PATH_IMAGE060
的,所以计算
Figure DEST_PATH_IMAGE061
的计算复杂度和内存开销都为
Figure 597356DEST_PATH_IMAGE062
,限制了本发明在大规模样本集的应用,进一步可将上式改写为:
Figure DEST_PATH_IMAGE063
然而计算
Figure 435255DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
的计算复杂度和内存开销仍为
Figure 927416DEST_PATH_IMAGE066
,本发明提出预定义常量
Figure DEST_PATH_IMAGE067
,则
Figure 903462DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
,进一步预定义常量
Figure 257215DEST_PATH_IMAGE070
,则
Figure DEST_PATH_IMAGE071
可写为
Figure 963002DEST_PATH_IMAGE072
,而计算
Figure DEST_PATH_IMAGE073
的计算复杂度和内存开销为
Figure 609753DEST_PATH_IMAGE074
;对于
Figure DEST_PATH_IMAGE075
可改写为
Figure 338675DEST_PATH_IMAGE076
,而计算此项的计算复杂度和内存开销为
Figure DEST_PATH_IMAGE077
,因此计算
Figure 479806DEST_PATH_IMAGE078
的复杂度和内存开销都减少为
Figure DEST_PATH_IMAGE079
步骤72、固定
Figure 790833DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
Figure 296901DEST_PATH_IMAGE082
Figure 575435DEST_PATH_IMAGE053
求解
Figure DEST_PATH_IMAGE083
:与求解
Figure 457941DEST_PATH_IMAGE084
类似,可得:
Figure DEST_PATH_IMAGE085
进一步利用与求解
Figure 124939DEST_PATH_IMAGE086
类似的方法,可将计算
Figure DEST_PATH_IMAGE087
的复杂度和内存开销都减少为
Figure 129804DEST_PATH_IMAGE088
步骤73、固定
Figure DEST_PATH_IMAGE089
Figure 380788DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE091
Figure 801405DEST_PATH_IMAGE092
求解
Figure DEST_PATH_IMAGE093
:去除与
Figure 336291DEST_PATH_IMAGE093
无关的项,则目标函数变为:
Figure 495746DEST_PATH_IMAGE094
对上式求关于
Figure DEST_PATH_IMAGE095
的导数,并令其等于0,则可得:
Figure 420977DEST_PATH_IMAGE096
步骤74、固定
Figure DEST_PATH_IMAGE097
Figure 707602DEST_PATH_IMAGE090
Figure 847727DEST_PATH_IMAGE093
Figure 132078DEST_PATH_IMAGE092
求解
Figure 544605DEST_PATH_IMAGE091
:去除与
Figure 369341DEST_PATH_IMAGE091
无关的项,则目标函数变为:
Figure 550924DEST_PATH_IMAGE098
上式可由奇异值分解(SVD)算法求解,即
Figure DEST_PATH_IMAGE099
,其中
Figure 320690DEST_PATH_IMAGE100
为左奇异矩阵,
Figure DEST_PATH_IMAGE101
为右奇异矩阵,
Figure 282830DEST_PATH_IMAGE102
为奇异值矩阵,则
Figure DEST_PATH_IMAGE103
步骤75、固定
Figure 661990DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE105
Figure 760396DEST_PATH_IMAGE106
Figure 698134DEST_PATH_IMAGE091
求解
Figure 85253DEST_PATH_IMAGE092
:去除与
Figure 189475DEST_PATH_IMAGE092
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE107
可得:
Figure 407967DEST_PATH_IMAGE108
其中
Figure DEST_PATH_IMAGE109
表示符号函数;
步骤76、重复步骤71-步骤75,直到算法收敛或达到最大迭代次数;
步骤8、用户输入查询样本,样本可以为图像也可为文本,提取其特征,将特征进行归一化和去均值,并利用高斯径向基函数将样本的特征映射到非线性空间,得到查询样本的表示
Figure 18071DEST_PATH_IMAGE110
步骤9、利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码:
Figure DEST_PATH_IMAGE111
步骤10、计算查询样本与样本集中异构样本哈希码的汉明距离,并按汉明距离从小到大排列,返回前
Figure 689223DEST_PATH_IMAGE112
个样本即为检索结果。
本发明与现有技术相比,其有益效果在于:
1、通过引入的常量将基于谱嵌入算法的计算复杂度和内存开销由
Figure DEST_PATH_IMAGE113
降低到
Figure 188949DEST_PATH_IMAGE114
2、利用保持模态内、模态间的语义相似性和基于标签的相似性学习哈希哈希码,提升了哈希码的性能。
3、利用监督的方式学习一个正交旋转矩阵减少量化误差,进一步增强了哈希码的区分能力,提升了算法的性能。
附图说明
图1为本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法的步骤流程图。
具体实施方式
为对本发明的技术方案进行更完整、清楚地描述,以下结合具体实施方式对本发明进一步详细描述,应当理解,此处所描述的实施例仅是说明和解释本发明,并不是用于限定本发明的保护范围。
本发明面向图文样本的高效监督图嵌入跨媒体哈希检索方法,在互联网上收集图像和文本样本,并将来源于同一网页的图像和文本样本构成样本对,建立图文样对本集,标注样本对的类别,并将图文样本集划分为训练集和测试集;提取训练集和测试集中所有图像和文本样本的特征,并利用径向基高斯核函数将其特征映射到非线性空间;利用样本对的类别标签构建样本对的图邻接矩阵,并进一步得到图的Laplace矩阵;利用线性映射将类别标签映射到一个潜在语义空间,并在此空间通过保持图像和文本样本的模态间和模态内的语义相似性为图像和文本模态分别学习线性映射矩阵;通过学习一个正交旋转矩阵最小化量化误差;提出一种高效的离散迭代优化算法,通过预定义几个常量避免直接利用Laplace矩阵求解,提升了算法的高效性,并可直接得到哈希码的离散解;本发明利用保持图像和文本样本的模态内、模态间语义相似性、基于类别标签的相似性和最小化量化误差学习哈希码,提升了算法的检索性能。
参见图1,一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于其利用计算机装置实现如下步骤:
第一步:从网络上收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并随机选择75%的图文样本对构成训练集,剩余的构成测试集;
第二步:提取所有图像样本的150维纹理特征、所有文本样本的500维BOW(Bag OfWords)特征,并对特征进行归一化和去均值;
第三步:训练集中图文样本对的特征用
Figure DEST_PATH_IMAGE115
表示,其中
Figure 261947DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE117
分别表示训练集中所有图像、文本样本的特征,
Figure 229903DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE119
Figure 139084DEST_PATH_IMAGE120
表示样本对的数量,
Figure DEST_PATH_IMAGE121
表示样本对的类别标签,其中
Figure 647426DEST_PATH_IMAGE122
表示样本类别的数量;随机选择500个样本
Figure DEST_PATH_IMAGE123
(其中
Figure 89777DEST_PATH_IMAGE124
)作为锚点,利用高斯径向基函数将样本的特征映射到非线性空间:
Figure DEST_PATH_IMAGE125
其中
Figure 290952DEST_PATH_IMAGE126
Figure DEST_PATH_IMAGE127
Figure 687429DEST_PATH_IMAGE128
表示
Figure DEST_PATH_IMAGE129
范数;
第四步:利用图文样本对的类别标签构造样本对的图邻接矩阵
Figure 937145DEST_PATH_IMAGE130
,其定义如下:
Figure DEST_PATH_IMAGE131
其中,
Figure 984735DEST_PATH_IMAGE132
表示矩阵
Figure DEST_PATH_IMAGE133
的第
Figure DEST_PATH_IMAGE135
行第
Figure 609008DEST_PATH_IMAGE136
列的数值,
Figure DEST_PATH_IMAGE137
表示
Figure 742049DEST_PATH_IMAGE138
范数;
第五步:进一步得到图邻接矩阵
Figure DEST_PATH_IMAGE139
的Laplace矩阵
Figure 795456DEST_PATH_IMAGE140
,其中
Figure DEST_PATH_IMAGE141
是对角阵,其对角元素
Figure 448285DEST_PATH_IMAGE142
第六步:基于上述的变量,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数,其定义如下:
Figure DEST_PATH_IMAGE143
其中
Figure 991262DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE145
Figure 595287DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE147
Figure 452385DEST_PATH_IMAGE148
Figure DEST_PATH_IMAGE149
Figure 208988DEST_PATH_IMAGE040
Figure 860550DEST_PATH_IMAGE150
分别表示为图像和文本样本模态学习的线性投影矩阵,
Figure DEST_PATH_IMAGE151
表示哈希码的长度,
Figure 718915DEST_PATH_IMAGE152
表示矩阵的迹,
Figure DEST_PATH_IMAGE153
为线性映射矩阵,
Figure 176441DEST_PATH_IMAGE154
为图文样本对学习的哈希码,
Figure DEST_PATH_IMAGE155
为正交旋转矩阵,
Figure 39749DEST_PATH_IMAGE156
表示尺寸为
Figure DEST_PATH_IMAGE157
的单位阵,
Figure 127790DEST_PATH_IMAGE158
表示正则化项;
第七步:利用迭代优化算法求解目标函数,首先初始化迭代次数
Figure DEST_PATH_IMAGE159
、最大迭代次数
Figure 457141DEST_PATH_IMAGE160
、目标函数的值
Figure DEST_PATH_IMAGE161
(足够大的数)和阈值0.001,具体包括以下步骤:
(1)固定
Figure 203511DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE163
Figure 872389DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE165
求解
Figure 193649DEST_PATH_IMAGE081
:去除与
Figure 993984DEST_PATH_IMAGE055
无关的项,则目标函数变为:
Figure 996575DEST_PATH_IMAGE166
对上式求关于
Figure DEST_PATH_IMAGE167
的导数,并令其等于0,则可得:
Figure 582277DEST_PATH_IMAGE168
由于Laplace矩阵
Figure DEST_PATH_IMAGE169
的尺寸是
Figure 746542DEST_PATH_IMAGE170
的,所以计算
Figure 801217DEST_PATH_IMAGE078
的复杂度和内存开销都为
Figure DEST_PATH_IMAGE171
,限制了本发明在大规模样本集的应用,进一步可将上式改写为:
Figure 341920DEST_PATH_IMAGE172
然而计算
Figure DEST_PATH_IMAGE173
Figure 782129DEST_PATH_IMAGE174
的复杂度和内存开销仍为
Figure DEST_PATH_IMAGE175
,本发明提出预定义常量
Figure 697388DEST_PATH_IMAGE176
,则
Figure DEST_PATH_IMAGE177
Figure 223048DEST_PATH_IMAGE178
,进一步预定义常量
Figure DEST_PATH_IMAGE179
,则
Figure 380491DEST_PATH_IMAGE180
可写为
Figure DEST_PATH_IMAGE181
,而计算
Figure 878468DEST_PATH_IMAGE182
的复杂度和内存开销为
Figure DEST_PATH_IMAGE183
;对于
Figure 446853DEST_PATH_IMAGE184
可改写为
Figure DEST_PATH_IMAGE185
,而计算此项的复杂度和内存开销为
Figure 974655DEST_PATH_IMAGE186
,因此计算
Figure 857160DEST_PATH_IMAGE061
的复杂度和内存开销都减少为
Figure 209644DEST_PATH_IMAGE074
(2)固定
Figure 948930DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE187
Figure 386864DEST_PATH_IMAGE188
Figure DEST_PATH_IMAGE189
求解
Figure 886110DEST_PATH_IMAGE190
:与求解
Figure 155417DEST_PATH_IMAGE055
类似,可得:
Figure DEST_PATH_IMAGE191
进一步利用与求解
Figure 268867DEST_PATH_IMAGE192
类似的方法,可将计算
Figure DEST_PATH_IMAGE193
的复杂度和内存开销都减少为
Figure 496893DEST_PATH_IMAGE194
(3)固定
Figure DEST_PATH_IMAGE195
Figure 783518DEST_PATH_IMAGE196
Figure 110594DEST_PATH_IMAGE188
Figure 394945DEST_PATH_IMAGE189
求解
Figure DEST_PATH_IMAGE197
:去除与
Figure 417259DEST_PATH_IMAGE197
无关的项,则目标函数变为:
Figure 445257DEST_PATH_IMAGE198
对上式求关于
Figure DEST_PATH_IMAGE199
的导数,并令其等于0,则可得:
Figure 938425DEST_PATH_IMAGE200
(4)固定
Figure 393677DEST_PATH_IMAGE081
Figure 293500DEST_PATH_IMAGE090
Figure 921927DEST_PATH_IMAGE162
Figure 958016DEST_PATH_IMAGE189
求解
Figure DEST_PATH_IMAGE201
:去除与
Figure 397219DEST_PATH_IMAGE201
无关的项,则目标函数变为:
Figure 518759DEST_PATH_IMAGE202
上式可由奇异值分解(SVD)算法求解,即
Figure DEST_PATH_IMAGE203
,其中
Figure 950877DEST_PATH_IMAGE204
为左奇异矩阵,
Figure DEST_PATH_IMAGE205
为右奇异矩阵,
Figure 421566DEST_PATH_IMAGE206
为奇异值矩阵,则
Figure 218621DEST_PATH_IMAGE103
(5)固定
Figure DEST_PATH_IMAGE207
Figure 889773DEST_PATH_IMAGE163
Figure 610736DEST_PATH_IMAGE208
Figure 621417DEST_PATH_IMAGE201
求解
Figure 651690DEST_PATH_IMAGE053
:去除与
Figure 747822DEST_PATH_IMAGE053
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE209
可得:
Figure 771011DEST_PATH_IMAGE210
其中
Figure DEST_PATH_IMAGE211
表示符号函数;
(6)计算目标函数的值
Figure 964095DEST_PATH_IMAGE212
,并判断
Figure DEST_PATH_IMAGE213
Figure 916001DEST_PATH_IMAGE214
是否成立,如果成立则停止迭代;如果不成立则
Figure DEST_PATH_IMAGE215
Figure 233850DEST_PATH_IMAGE216
,并重复执行步骤(1)—(5);
第八步:用户输入查询样本,也可以为图像也可为文本,如果输入图像则提取其150维的纹理特征,如果输入文本则提取其500维的BOW特征,将特征进行归一化和去均值,并利用高斯径向基函数将样本的特征映射到非线性空间,得到查询样本的表示
Figure DEST_PATH_IMAGE217
第九步:利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码:
Figure 811462DEST_PATH_IMAGE218
第十步:计算查询样本与样本集中异构样本哈希码的汉明距离,并按汉明距离从小到大排列,返回前
Figure DEST_PATH_IMAGE219
个样本即为检索结果。
本实施例在公开样本集Mirflickr25K上验证本发明方法的有效性,此样本集包含20015个从社交网站Flickr上收集的图像文本对,这些样本对包含24个语义类别;本实施例随机选取75%的图文样本对作为训练集,剩余的25%作为测试集;每张图像表示为150维的Gist特征(纹理特征),文本表示为500维的BOW(Bag Of Words)特征,并对特征做归一化、去均值处理;为评价本发明方法的检索性能,在此用平均准确率(Mean AveragePrecision,MAP@100)作为评价标准,即MAP由前100个返回的样本计算,不同哈希码长在图像检索文本和文本检索图像两个任务上的MAP@100结果,如表1所示为本发明在Mirflickr25K样本集上的MAP@100结果,结果显示本发明方法的检索性能其平均准确率明显高于已有技术。
表 1
Figure 111250DEST_PATH_IMAGE220

Claims (4)

1.一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,步骤如下:
步骤1、从网络收集图像和文本样本,并将属于同一网页的图像和文本样本作为图文样本对构成图文样本集,标注图文样本对的类别,并将图文样本对划分为训练集和测试集;
步骤2、提取训练集和测试集中所有图像和文本样本的特征,并对特征进行归一化和去均值;
步骤3、训练集中的图文样本对的特征用
Figure DEST_PATH_IMAGE002
表示,其中
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
分别表示训练集中所有图像样本、文本样本的特征,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
表示实数,
Figure DEST_PATH_IMAGE012
表示特征的维度,
Figure DEST_PATH_IMAGE014
表示训练集中图文样本对的数量,
Figure DEST_PATH_IMAGE016
表示样本对的类别标签,其中
Figure DEST_PATH_IMAGE018
表示总类别数,
Figure DEST_PATH_IMAGE020
表示图文样本对的数量;随机选择
Figure DEST_PATH_IMAGE022
个样本对
Figure DEST_PATH_IMAGE024
作为锚点,其中
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
,利用高斯径向基函数将所有图像样本、文本样本的特征映射到非线性空间:
Figure DEST_PATH_IMAGE030
其中
Figure DEST_PATH_IMAGE032
为尺度参数,
Figure DEST_PATH_IMAGE034
表示
Figure DEST_PATH_IMAGE036
范数,
Figure DEST_PATH_IMAGE038
表示矩阵或向量的转置;
步骤4、利用图文样本对的类别标签构造样本对的图邻接矩阵
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
表示实数,其定义如下:
Figure DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE046
表示矩阵
Figure DEST_PATH_IMAGE048
的第
Figure DEST_PATH_IMAGE050
行第
Figure DEST_PATH_IMAGE052
列的数值,
Figure DEST_PATH_IMAGE054
表示
Figure DEST_PATH_IMAGE056
范数;
步骤5、构造图邻接矩阵
Figure 150601DEST_PATH_IMAGE048
的Laplace矩阵
Figure DEST_PATH_IMAGE058
,其中
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
的对角阵,其对角元素
Figure DEST_PATH_IMAGE064
步骤6、结合步骤1-步骤5,利用保持样本特征的模态间、模态内语义相似性和最小化量化误差构造本方法的目标函数;
步骤7、利用迭代优化算法求解目标函数;
步骤8、用户输入查询样本,提取其特征,将特征进行归一化和去均值,并利用高斯径向基函数将样本的特征映射到非线性空间,得到查询样本的表示
Figure DEST_PATH_IMAGE066
步骤9、利用已学习的线性映射函数和旋转矩阵,生成查询样本的哈希码;
步骤10、计算查询样本与样本集中异构样本哈希码的汉明距离,并按汉明距离从小到大排列,返回前
Figure DEST_PATH_IMAGE068
个样本即为检索结果。
2.如权利要求1所述的一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,步骤6中目标函数的定义如下:
Figure DEST_PATH_IMAGE070
其中
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
为权重参数,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
分别表示为图像样本和文本样本模态学习的线性投影矩阵,
Figure DEST_PATH_IMAGE088
表示哈希码的长度,
Figure DEST_PATH_IMAGE090
表示矩阵的迹,
Figure DEST_PATH_IMAGE092
为线性映射矩阵,
Figure DEST_PATH_IMAGE094
为图文样本对学习的哈希码,
Figure DEST_PATH_IMAGE096
为正交旋转矩阵,
Figure DEST_PATH_IMAGE098
表示尺寸为
Figure DEST_PATH_IMAGE100
的单位阵,
Figure DEST_PATH_IMAGE102
表示正则化项。
3.如权利要求1或2所述的一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,步骤7中求解目标函数具体包括以下步骤:
步骤71、固定
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE110
求解
Figure DEST_PATH_IMAGE112
:去除与
Figure DEST_PATH_IMAGE114
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE116
对上式求关于
Figure DEST_PATH_IMAGE118
的导数,并令其等于0,则可得:
Figure DEST_PATH_IMAGE120
Laplace矩阵
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE124
矩阵,
Figure DEST_PATH_IMAGE126
的计算复杂度和内存开销均为
Figure DEST_PATH_IMAGE128
Figure DEST_PATH_IMAGE130
Figure DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE134
的计算复杂度和内存开销均为
Figure DEST_PATH_IMAGE136
,预定义常量
Figure DEST_PATH_IMAGE138
,则
Figure DEST_PATH_IMAGE140
Figure DEST_PATH_IMAGE142
;预定义常量
Figure DEST_PATH_IMAGE144
,则
Figure DEST_PATH_IMAGE146
可转换为
Figure DEST_PATH_IMAGE148
,而
Figure DEST_PATH_IMAGE150
的计算复杂度和内存开销为
Figure DEST_PATH_IMAGE152
Figure DEST_PATH_IMAGE154
可转换为
Figure DEST_PATH_IMAGE156
,而
Figure 506889DEST_PATH_IMAGE156
的计算复杂度和内存开销为
Figure DEST_PATH_IMAGE158
,因此计算
Figure DEST_PATH_IMAGE160
的计算复杂度和内存开销都减少为
Figure DEST_PATH_IMAGE162
步骤72、固定
Figure DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE166
Figure DEST_PATH_IMAGE168
Figure 99675DEST_PATH_IMAGE110
求解
Figure DEST_PATH_IMAGE170
:与求解
Figure DEST_PATH_IMAGE172
类似,可得:
Figure DEST_PATH_IMAGE174
利用与求解
Figure DEST_PATH_IMAGE176
类似的方法,将计算
Figure DEST_PATH_IMAGE178
的计算复杂度和内存开销都减少为
Figure DEST_PATH_IMAGE180
步骤73、固定
Figure DEST_PATH_IMAGE182
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
Figure DEST_PATH_IMAGE188
求解
Figure DEST_PATH_IMAGE190
:去除与
Figure 174511DEST_PATH_IMAGE190
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE192
对上式求关于
Figure DEST_PATH_IMAGE194
的导数,并令其等于0,则可得:
Figure DEST_PATH_IMAGE196
步骤74、固定
Figure DEST_PATH_IMAGE198
Figure 926567DEST_PATH_IMAGE184
Figure 686712DEST_PATH_IMAGE190
Figure 953745DEST_PATH_IMAGE188
求解
Figure 152646DEST_PATH_IMAGE186
:去除与
Figure 759207DEST_PATH_IMAGE186
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE200
上式可由奇异值分解(SVD)算法求解,即
Figure DEST_PATH_IMAGE202
,其中
Figure DEST_PATH_IMAGE204
为左奇异矩阵,
Figure DEST_PATH_IMAGE206
为右奇异矩阵,
Figure DEST_PATH_IMAGE208
为奇异值矩阵,则
Figure DEST_PATH_IMAGE210
步骤75、固定
Figure DEST_PATH_IMAGE212
Figure DEST_PATH_IMAGE214
Figure DEST_PATH_IMAGE216
Figure 500374DEST_PATH_IMAGE186
求解
Figure 192386DEST_PATH_IMAGE188
:去除与
Figure 867081DEST_PATH_IMAGE188
无关的项,则目标函数变为:
Figure DEST_PATH_IMAGE218
可得:
Figure DEST_PATH_IMAGE220
其中
Figure DEST_PATH_IMAGE222
表示符号函数;
步骤76、重复步骤71-步骤75,直到算法收敛或达到最大迭代次数。
4.如权利要求3所述的一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法,其特征在于,在步骤9中,查询样本的哈希码为
Figure DEST_PATH_IMAGE224
CN202010943065.5A 2020-09-09 2020-09-09 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 Withdrawn CN112214623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010943065.5A CN112214623A (zh) 2020-09-09 2020-09-09 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010943065.5A CN112214623A (zh) 2020-09-09 2020-09-09 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

Publications (1)

Publication Number Publication Date
CN112214623A true CN112214623A (zh) 2021-01-12

Family

ID=74049225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010943065.5A Withdrawn CN112214623A (zh) 2020-09-09 2020-09-09 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

Country Status (1)

Country Link
CN (1) CN112214623A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113868366A (zh) * 2021-12-06 2021-12-31 山东大学 一种面向流数据的在线跨模态检索方法与***
CN117315687A (zh) * 2023-11-10 2023-12-29 哈尔滨理工大学 一种面向单类别低信息量数据的图文匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO YAO,LIANSHAN YAN, YILAN MA, HONG YU, QINGTANG SU: "《Fast discrete cross-modal hashing with semantic consistency》", 《NEURAL NETWORKS》 *
姚涛: "《基于哈希方法的跨媒体检索研究》", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113191445B (zh) * 2021-05-16 2022-07-19 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113868366A (zh) * 2021-12-06 2021-12-31 山东大学 一种面向流数据的在线跨模态检索方法与***
CN117315687A (zh) * 2023-11-10 2023-12-29 哈尔滨理工大学 一种面向单类别低信息量数据的图文匹配方法

Similar Documents

Publication Publication Date Title
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
Kulis et al. Fast similarity search for learned metrics
CN112214623A (zh) 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
Kulis et al. Kernelized locality-sensitive hashing
CN102549603B (zh) 基于相关性的图像选择
Ge et al. Graph cuts for supervised binary coding
Unar et al. Detected text‐based image retrieval approach for textual images
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
Ali et al. Modeling global geometric spatial information for rotation invariant classification of satellite images
CN110943981A (zh) 基于层次学习的跨架构漏洞挖掘方法
Choi et al. Face video retrieval based on the deep CNN with RBF loss
Liu et al. An indoor scene classification method for service robot Based on CNN feature
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
Al-Jubouri Content-based image retrieval: Survey
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及***
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN107133348B (zh) 大规模图片集中基于语义一致性的近似搜索方法
Sun et al. Search by detection: Object-level feature for image retrieval
CN112182144A (zh) 搜索词标准化方法、计算设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210112

WW01 Invention patent application withdrawn after publication