CN107729513A - 基于语义对齐的离散监督跨模态哈希检索方法 - Google Patents

基于语义对齐的离散监督跨模态哈希检索方法 Download PDF

Info

Publication number
CN107729513A
CN107729513A CN201711004530.3A CN201711004530A CN107729513A CN 107729513 A CN107729513 A CN 107729513A CN 201711004530 A CN201711004530 A CN 201711004530A CN 107729513 A CN107729513 A CN 107729513A
Authority
CN
China
Prior art keywords
sample
hash
training
image
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711004530.3A
Other languages
English (en)
Other versions
CN107729513B (zh
Inventor
姚涛
孔祥维
付海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN201711004530.3A priority Critical patent/CN107729513B/zh
Publication of CN107729513A publication Critical patent/CN107729513A/zh
Application granted granted Critical
Publication of CN107729513B publication Critical patent/CN107729513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义对齐的离散哈希(Discrete Semantic Alignment Hahing,DSAH)方法实现跨模态检索。在训练过程中,首先利用图像的属性与本模态对齐语义信息,缩小异构鸿沟;然后,为了减少内存开销和训练时间,利用协同滤波学习一个潜在语义空间,直接构建哈希码和标签之间的内在联系;最后,为了减少量化误差,提出一种离散优化方法,得到性能更好的哈希函数。在线检索过程,首先利用哈希函数将测试集中样本映射到二值空间,然后计算查询样本的二值码与被检索异构样本间的汉明距离,并按从小到大排序返回排序靠前的样本。在两个具有代表性的多模态数据集上的实验结果证明了DSAH的优越性能。

Description

基于语义对齐的离散监督跨模态哈希检索方法
技术领域:
本发明属于多媒体检索技术领域,涉及一种跨模态哈希检索方法,尤其涉及基于语义对齐的离散监督跨模态哈希检索方法。
背景技术:
在Web2.0时代,人们可以通过网络上传各种模态的数据,例如图像、文本和视频等。利用各种模态的数据表示信息,可以让网民更直观、更容易的获取自己所需要的信息。虽然这些不同模态的信息的表示不同,但它们可能包含相同的语义信息,因此,对于用户提交的检索内容,搜索引擎返回多种模态的数据能更生动、更形象的描述用户的检索意图,可以提升网络用户的体验。
不同模态样本的表示是不同的,例如文本通常用BOW或类似的方法表示,而图像通常用底层特征表示,例如GIST特征、SIFT特征等。一方面,对于文本模态而言,文本的关键词是含有语义信息的,例如:老虎、蓝天和女孩等;而对图像模态而言,底层特征一般是通过无监督的方式直接从图像中提取的,因此不包含语义信息,这会导致底层特征非常相似的两幅图像可能包含不同的语义概念,反之底层特征非常不相似的两幅图像可能含有相同的语义概念。甚至一副含有确切语义概念的图像,例如“一只黑色的小狗和两只白色的山羊在草地上奔跑”,对于计算机视觉领域仍然是一个挑战。另一方面,对于文本模态而言,一个受过良好教育的以英语为母语的人大概掌握了17000个单词;而图像的底层特征例如SIFT特征,由于SIFT特征点的表示是连续的,所以图像表示的数量是无数的。因此,会造成图文两种模态的表示与高层语义之间的鸿沟是不同的。但是,已有的哈希方法通常直接把各模态的特征表示放到一个统一的框架,学习各模态的哈希函数,而忽视各模态特征与高层语义之间的语义鸿沟不同的问题(参见文献 [1-5] )。因此需要研究一种新方法来解决此问题。
其次,监督跨媒体哈希方法利用含有语义概念的标签学习哈希函数,由于标签含有高层语义信息,因此通常可以取得优于无监督跨媒体哈希算法的性能。大部分监督跨媒体哈希算法一般通过以下两种方法学习哈希函数:(1)利用样本的标签信息构建样本间相似度矩阵,使哈希码间的相似度逼近样本间相似度矩阵(参见文献 [5] );(2)利用标签构造正(负)样本对,通过最小化正样本对间的汉明距离、最大化负样本对的汉明距离 学习哈希函数(参见文献 [1-3] )。但是样本间相似度矩阵的尺寸为 ,其中为训练样本的数量(构建正、负样本对与构建样本间相似矩阵类似,最多可以构建个正、负样本对),随着样本数量的增加,无论是构建两两样本间相似度矩阵还是构造正、负样本对都会导致较大的内存开销和计算复杂度,限制了算法的应该用,因此需要研究一种新方法来解决此问题。
此外,在哈希方法中,由于哈希码的二值约束,如何优化目标函数通常是一项挑战性的工作。通常,大部分哈希算法在优化过程中会放松哈希码的离散约束,得到连续解,然后通过量化连续解得到哈希码(参见文献 [5] )。但是量化操作会引入量化误差,会破坏样本的局部结构。文献[6]提出首先通过PCA降维得到样本的连续表示,再学习一个正交旋转矩阵最小化量化误差,得到性能更好的哈希函数。量化相关哈希把哈希函数学习和量化操作纳入一个学习框架,并提出一种联合学习方法得到一个最优解(参见文献 [7])。但是上述方法都没有直接学习离散的哈希码,导致了算法性能的下降,因此需要研究一种新方法来解决此问题。
发明内容:
本发明的目的在于克服上述已有技术的不足而提供一种基于语义对齐的离散监督跨模态哈希检索方法。本发明的方法首先利用含有语义信息的属性表示图像,使文本和图像模态对齐语义信息,缩小异构鸿沟;其次为了减少训练的计算复杂度和内存开销,提出直接利用标签学习样本的哈希码;最后为了减小量化误差,提出一种离散优化算法,直接得到哈希码的离散解。
本发明的目的可以通过如下措施来达到:基于语义对齐的离散监督跨模态哈希检索方法,其特征在于其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
为了进一步实现本发明的目的,所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:引入基于矩阵分解的协同滤波方法,直接利用样本的标签学习哈希码;具体而言,利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一个矩阵为潜在语义矩阵,用表示,表示训练样本总的类别数目,表示哈希码的长度;另外一个矩阵为样本的哈希码,用表示,表示训练样本的数量;算法期望如果第个训练样本属于第类,的值应该小;反之,如果第个训练样本不属于第类,的值应该大;因此,第个训练样本和第个潜在语义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
其中,表示Frobenius范数,为所有样本的标签矩阵,表示第个样本的标签,表示第个样本不属于第类,表示第个样本属于第类,用矩阵形式表示,可写为:
其中,为正则项,为权重参数;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
其中分别表示训练集中文本和图像模态样本的特征描述,表示文本模态特征的维数,分别表示文本和图像模态的哈希函数,表示符号函数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
其中,为权重参数;
步骤1.4:因此DSAH算法目标函数定义为:
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定,求解:当固定时,题变为简单的线性回归问题,这个问题存在闭合解,可以通过对求偏导为0得到:
步骤1.5.2:固定,求解:当固定时,与求解类似,这个问题也存在闭合解,可以通过对变量求偏导为0得到:
与求解类似,可以通过下式得到
步骤1.5.3:固定,求解:当固定时,步骤1.4中目标函数可以写为:
本发明提出一种离散优化方法,可以直接得到问题的离散解;展开上式并舍弃与无关的项,上式可写为:
其中表示矩阵的迹;本发明提出固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;令表示哈希码的第位,表示除了第位由其他位组成的矩阵;类似的,表示的第列,表示除了第位由其他位组成的矩阵;表示的第列,表示除了第位由其他位组成的矩阵;去除常数项,目标函数变为:
的符号不同时,上式取值最小,因此:
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
为了进一步实现本发明的目的,所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
本发明与已有技术相比可产生如下积极效果:
(1)利用含有语义信息的属性表示图像,使文本和图像模态对齐语义信息,缩小异构鸿沟,提升了算法的性能;
(2)直接利用标签学习样本的哈希码,减少了训练的计算复杂度和内存开销;
(3)提出了一种离散优化算法,可以直接得到哈希码的离散解,减小量化误差,提升了算法的性能。
附图说明:
图1为本发明的流程示意图。
具体实施方式:下面对本发明的具体实施方式再详细说明:
本发明的数据集被划分为训练集和测试集,训练集用于训练各模态的哈希函数,测试集用于测试算法的性能;
参见图1,基于语义对齐的离散监督跨模态哈希检索方法,其特征在于其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:为了减少监督哈希算法的运算量,引入基于矩阵分解协同的协同滤波方法,直接利用样本的标签学习哈希码;具体而言,本发明利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一个矩阵为潜在语义矩阵,用表示,表示训练样本总的类别数目,表示哈希码的长度;另外一个矩阵为样本的哈希码,用表示,表示训练样本的数量;算法期望如果第个训练样本属于第类,的值应该小;反之,如果第个训练样本不属于第类,的值应该大;因此,第个训练样本和第个潜在语义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
其中,表示Frobenius范数,为所有样本的标签矩阵,表示第个样本的标签,表示第个样本不属于第类,表示第个样本属于第类,用矩阵形式表示,可写为:
其中,为正则项,为权重参数;哈希码直接通过标签矩阵得到,由于标签矩阵含有高层语义信息,因此哈希码具有很好的区分性能;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
其中分别表示训练集中文本和图像模态样本的特征描述,表示文本模态特征的维数,分别表示文本和图像模态的哈希函数,表示符号函数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
其中,为权重参数。
步骤1.4:因此DSAH算法目标函数定义为:
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;但是目标函数含有四个变量是非凸的,因此本发明提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定,求解:当固定时,题变为简单的线性回归问题,这个问题存在闭合解,可以通过对求偏导为0得到:
步骤1.5.2:固定,求解:当固定时,与求解类似,这个问题也存在闭合解,可以通过对变量求偏导为0得到:
与求解类似,可以通过下式得到
步骤1.5.3:固定,求解:当固定时,步骤1.4中目标函数可以写为:
由于的离散约束,所以这个问题是NP难问题。大部分已有的方法选择放松离散约束得到问题的一个连续解,再通过量化连续解得到离散解。但是由于量化操作引入了量化误差,再由连续解学习哈希函数会导致哈希函数性能的下降。因此本发明提出一种离散优化方法,可以直接得到问题的离散解。展开上式并舍弃与无关的项,DSAH算法的目标函数可写为:
其中表示矩阵的迹;本发明提出通过固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;具体而言,令表示哈希码的第位,表示除了第位由其他位组成的矩阵;类似的,表示的第列,表示除了第位由其他位组成的矩阵;表示的第列,表示除了第位由其他位组成的矩阵;去除常数项,目标函数变为:
通过观察可以发现:当的符号不同时,上式的取值最小,因此:
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
本实施例的数据集为Mirflickr25K[8]和NUS-WIDE数据集[9],这两个数据集由图像和文本模态样本对构成,其中文本模态样本用BOW特征表示,而图像模态样本用CNN特征(Fc7层的输出)表示。
为了对齐文本模态和图像模态的语义信息,本发明方法利用图像模态的语义属性表示图像模态样本,具体而言,利用CNN网络的Fc8层的1000类分类得分作为图像模态的语义属性。对于Mirflickr25K数据集,本实施例随机选取75%的样本对构成训练集,剩余的25%样本对构成测试集,用来测试本发明方法的检索性能;对于NUS-WIDE数据集,本实施例随机选取99%的样本对构成训练集,剩余的1%样本对构成测试集,用来测试本发明方法的检索性能。
本实施例用平均精确率(mean Average Precision,mAP)来评估算法的检索性能。在两个数据集上文本检索图像和图像检索文本两个任务上哈希码长从16比特变化到64比特的实验结果公布在表1中。由于本发明方法利用了图像模态的语义属性与文本模态对齐语义信息和离散优化,本实验的平均准确率要明显优于文献[10-15]的结果。具体而言,在MirFlickr25K数据集上,本发明算法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了3.10%和2.64%的检索性能提升;在NUS-WIDE数据集上,本发明方法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了9.83%和11.26%的检索性能提升。证明了本发明提出方法的有效性。
表1在Mirflickr25K和NUS-WIDE数据集上的实验结果
应当理解的是,本说明书未详细阐述的部分都属于现有技术。上述针对较佳实施例的描述较细致,但不能因此认为是对本发明专利保护范围的限制,本发明的请求保护范围应以所附权利要求为准。
参考文献:
[1] BRONSTEIN M, BRONSTEIN A, MICHEL F, et al. Data fusion through cross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, San Francisco, CA,USA, 2010: 3594-3601.
[2]ZHEN Y, YEUNG D, Co-regularized hashing for multimodal data [C].Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA,2012: 1385-1393.
[3]KUMAR S, UDUPA R. Learning hash functions for cross-view similaritysearch [C]. International Joint Conference on Artificial Intelligence,Barcelona, Catalonia, Spain, 2011:1360-1366.
[4]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, Columbus, OH, USA, 2014: 2075-2082..
[5] ZHANG D, LI W. Large-scale supervised multimodal hashing withsemantic correlation maximization [C]. AAAI Conference on ArtificialIntelligence, Québec City, Québec, Canada, 2014: 2177-2183.
[6]WU B, YANG Q, ZHENG W. Quantized correlation hashing for fast cross-modal search [C]. International Joint Conference on Artificial Intelligence,Canberra, ACT, Australia, 2015: 25-31.
[7]GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.
[8] HUISKES M, LEW M. The MIR flickr retrieval evaluation[C]. ACMInternational Conference on Multimedia Information Retrieval, 2008: 39-43.
[9] CHUA T, TANG J, HONG R, et al. Nuswide: A real-world web imagedatabase from national university of singapore [C]. ACM Conference on Imageand Video Retrieval, Santorini Island, Greece, 2009: 48-56.
[10] Zhang D, Li W J. Large-scale supervised multimodal hashing withsemantic correlation maximization [C],AAAI Conference on ArtificialIntelligence, 2014, pp. 2177-2183.
[11] Kumar S, Udupa R. Learning hash functions for cross view similaritysearch [J], International Joint Conference on Artificial Intelligence, 2011:1360-1365.
[12] Song J, Yang Y, Yang Y, Huang Z, Shen H. T. Inter-media hashing forlarge-scale retrieval from heterogenous data sources. ACM InternationalConference on Management of Data, 2013:785-796.
[13] Ding G, Guo, Y, Zhou J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2083–2090.
[14] Tang J, Wang K, Shao L. Supervised matrix factorization hashing forcross-modal retrieval [J]. IEEE Transactions on Image Processing, 2016:3157:3166.
[15] Ma D, Liang J, Kong. X, He R. Frustratingly easy cross-modal hashing[C]. ACM international conference on Multimedia, 2016: 237–241.

Claims (3)

1.基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
2.根据权利要求1所述的基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:引入基于矩阵分解的协同滤波方法,直接利用样本的标签学习哈希码;具体而言,利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一个矩阵为潜在语义矩阵,用表示,表示训练样本总的类别数目,表示哈希码的长度;另外一个矩阵为样本的哈希码,用表示,表示训练样本的数量;算法期望如果第个训练样本属于第类,的值应该小;反之,如果第个训练样本不属于第类,的值应该大;因此,第个训练样本和第个潜在语义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
其中,表示Frobenius范数,为所有样本的标签矩阵,表示第个样本的标签,表示第个样本不属于第类,表示第个样本属于第类,用矩阵形式表示,可写为:
其中,为正则项,为权重参数;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
其中分别表示训练集中文本和图像模态样本的特征描述,表示文本模态特征的维数,分别表示文本和图像模态的哈希函数,表示符号函数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
其中,为权重参数;
步骤1.4:因此DSAH算法目标函数定义为:
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定,求解:当固定时,题变为简单的线性回归问题,这个问题存在闭合解,可以通过对求偏导为0得到:
步骤1.5.2:固定,求解:当固定时,与求解类似,这个问题也存在闭合解,可以通过对变量求偏导为0得到:
与求解类似,可以通过下式得到
步骤1.5.3:固定,求解:当固定时,步骤1.4中目标函数可以写为:
本发明提出一种离散优化方法,可以直接得到问题的离散解;展开上式并舍弃与无关的项,上式可写为:
其中表示矩阵的迹;本发明提出固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;令表示哈希码的第位,表示除了第位由其他位组成的矩阵;类似的,表示的第列,表示除了第位由其他位组成的矩阵;表示的第列,表示除了第位由其他位组成的矩阵;去除常数项,目标函数变为:
的符号不同时,上式取值最小,因此:
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
3.根据权利要求1所述的基于语义对齐的跨媒体哈希检索方法,其特征在于:所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
CN201711004530.3A 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法 Active CN107729513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711004530.3A CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711004530.3A CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN107729513A true CN107729513A (zh) 2018-02-23
CN107729513B CN107729513B (zh) 2020-12-01

Family

ID=61213580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711004530.3A Active CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN107729513B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595474A (zh) * 2018-03-09 2018-09-28 中山大学 一种带有物***置感知的多标签图片哈希方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108805157A (zh) * 2018-04-11 2018-11-13 南京理工大学 基于部分随机监督离散式哈希的遥感图像分类方法
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN109885716A (zh) * 2019-02-18 2019-06-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111522903A (zh) * 2020-04-01 2020-08-11 济南浪潮高新科技投资发展有限公司 一种深度哈希检索方法、设备及介质
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及***
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN112948617A (zh) * 2021-02-07 2021-06-11 武汉工程大学 基于特定类原型的深度哈希网络图像检索方法及装置
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113487027A (zh) * 2021-07-08 2021-10-08 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113537250A (zh) * 2021-08-17 2021-10-22 天津大学 一种基于离散-连续特征耦合的图像异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及***
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107273505A (zh) * 2017-06-20 2017-10-20 西安电子科技大学 基于非参数贝叶斯模型的监督跨模态哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及***
CN107273505A (zh) * 2017-06-20 2017-10-20 西安电子科技大学 基于非参数贝叶斯模型的监督跨模态哈希检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAO YAO: "Semantic Consistency Hashing for Cross-Modal Retrieval", 《NEUROCOMPUTING》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595474A (zh) * 2018-03-09 2018-09-28 中山大学 一种带有物***置感知的多标签图片哈希方法
CN108805157A (zh) * 2018-04-11 2018-11-13 南京理工大学 基于部分随机监督离散式哈希的遥感图像分类方法
CN108805157B (zh) * 2018-04-11 2022-02-18 南京理工大学 基于部分随机监督离散式哈希的遥感图像分类方法
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109558890B (zh) * 2018-09-30 2023-03-31 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766455B (zh) * 2018-11-15 2021-09-24 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN111461157B (zh) * 2019-01-22 2022-11-18 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN109885716B (zh) * 2019-02-18 2022-10-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109885716A (zh) * 2019-02-18 2019-06-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176B (zh) * 2020-03-02 2023-08-18 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111368176A (zh) * 2020-03-02 2020-07-03 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及***
CN111522903A (zh) * 2020-04-01 2020-08-11 济南浪潮高新科技投资发展有限公司 一种深度哈希检索方法、设备及介质
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及***
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN112948617B (zh) * 2021-02-07 2022-05-31 武汉工程大学 基于特定类原型的深度哈希网络图像检索方法及装置
CN112948617A (zh) * 2021-02-07 2021-06-11 武汉工程大学 基于特定类原型的深度哈希网络图像检索方法及装置
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113434671B (zh) * 2021-06-23 2024-06-07 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113487027A (zh) * 2021-07-08 2021-10-08 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113487027B (zh) * 2021-07-08 2023-09-22 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113537250A (zh) * 2021-08-17 2021-10-22 天津大学 一种基于离散-连续特征耦合的图像异常检测方法
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法

Also Published As

Publication number Publication date
CN107729513B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN107729513A (zh) 基于语义对齐的离散监督跨模态哈希检索方法
Li et al. Self-supervised adversarial hashing networks for cross-modal retrieval
Zhen et al. Deep supervised cross-modal retrieval
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Srivastava et al. Multimodal learning with deep boltzmann machines
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN110222140A (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110334219A (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及***
CN111444372B (zh) 用于图像处理的***和方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
Zhang et al. Multi-modal multi-label emotion recognition with heterogeneous hierarchical message passing
Veit et al. Separating self-expression and visual content in hashtag supervision
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111027595A (zh) 双阶段语义词向量生成方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
Gomez et al. Learning to learn from web data through deep semantic embeddings
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN105389326A (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN111966888B (zh) 融合外部数据的基于方面类别的可解释性推荐方法及***
CN113849653B (zh) 一种文本分类方法及装置
CN107247755A (zh) 一种基于上下文序列记忆网络的个性化图像字幕生成方法
CN110019653A (zh) 一种融合文本和标签网络的社交内容表征方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Discrete supervised cross modal hash retrieval method based on semantic alignment

Effective date of registration: 20211216

Granted publication date: 20201201

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220317

Granted publication date: 20201201

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PC01 Cancellation of the registration of the contract for pledge of patent right