CN115795065A - 基于带权哈希码的多媒体数据跨模态检索方法及*** - Google Patents

基于带权哈希码的多媒体数据跨模态检索方法及*** Download PDF

Info

Publication number
CN115795065A
CN115795065A CN202211377750.1A CN202211377750A CN115795065A CN 115795065 A CN115795065 A CN 115795065A CN 202211377750 A CN202211377750 A CN 202211377750A CN 115795065 A CN115795065 A CN 115795065A
Authority
CN
China
Prior art keywords
hash
data
matrix
training
hash code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211377750.1A
Other languages
English (en)
Inventor
王永欣
董峰
宿鹏浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202211377750.1A priority Critical patent/CN115795065A/zh
Publication of CN115795065A publication Critical patent/CN115795065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于带权哈希码的多媒体数据跨模态检索方法及***,该方法包括构建训练样本集;对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;该哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵,以及学习不同模态的哈希函数;将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,根据该待检索数据哈希码与数据库中样本数据哈希码的带权海明距离,输出检索结果。本发明通过学习各位哈希码的权重,强调不同码的独特贡献,有效提高跨模态的检索能力。

Description

基于带权哈希码的多媒体数据跨模态检索方法及***
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于带权哈希码的多媒体数据跨模态检索方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着信息技术的快速发展,在社交多媒体环境中经常需要使用图像检索文本或其他类型的数据,类似这一使用一种模态的数据检索另一种模态的与该数据语义相关数据的方式,称为跨模态检索(Cross-modal Retrieval)。针对跨模态检索,传统的最近邻搜索(Nearest Neighbor Search,NN)由于需要依赖于精确的距离计算而不可行,而哈希(Hashing)作为一种典型的近似最近邻方法(Approximation Nearest Neighbor Search,ANN),能够实现准确率和效率的平衡,是应用于跨模态检索的常见解决方法。哈希方法将高维数据映射到低维的紧凑哈希码中,能够大量减少内存花销,而且在二进制哈希码上的距离计算仅仅需要通过中央处理器(CPU)执行异或运算,这极大的加速了在大规模数据集上的搜索,提高检索性能。正是由于哈希方法在保持时间和空间上高效的同时能够取得不错的检索性能,这一方法越来越为人所知且得到广泛应用。
同时,跨模态哈希可根据是否利用监督信息分为监督、无监督、半监督,其中,监督跨模态哈希方法利用标签的语义信息生成更有区分性的哈希码,能够获得更好的检索性能。
但是,现有的监督跨模态哈希方法使用{0,1}形式的逻辑标签,通常是粗粒度的,不能反映实例间细粒度的关系,而且数据类别中同样存在大量的拓扑信息待挖掘。此外,平等地对待二进制码的每一位会限制哈希码保存更多精细语义的能力,导致检索性能较差。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于带权哈希码的多媒体数据跨模态检索方法及***,通过挖掘标签的拓扑结构信息对语义标签提升,得到标签分布矩阵,基于该标签分布矩阵构造精细的相似度矩阵,根据该标签分布矩阵构造相似度矩阵,构建使带权哈希码近似该相似度矩阵的目标函数,通过学习获得哈希码和位权矩阵,再通过核逻辑回归模型学习得到不同模态的哈希函数,获取训练完成的哈希检索模型,将待查询数据输入该哈希检索模型,输出检索结果。这一方案利用逻辑值的语义标签的拓扑结构信息,携带更多的语义信息,并且通过学习各位哈希码的权重,强调不同码的独特贡献,有效提高跨模态的检索能力。
第一方面,本公开提供了一种基于带权哈希码的多媒体数据跨模态检索方法,包括:
获取不同模态的多媒体数据,构建训练样本集;
对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;所述哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数;
将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,计算该待检索数据的哈希码与数据库中样本数据哈希码的带权海明距离,根据该带权海明距离输出检索结果。
进一步的技术方案,所述哈希检索模型的训练过程具体包括:
利用聚类算法将训练集中的训练数据划分为多组,构造每组的局部类别关联矩阵,根据局部类别关联矩阵和语义标签,获得每组的局部标签分布矩阵,组合得到训练样本的全局标签分布矩阵;
利用生成的标签分布矩阵构造相似度矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数,求解获得哈希码矩阵和位权矩阵。
进一步的技术方案,所述求解过程为:
初始化位权矩阵为单位矩阵,引入中间变量以及平衡和不相关约束,求解得到哈希码矩阵;
通过对目标函数求导并使导数为0,结合计算得到的哈希码矩阵和相似度矩阵,求解得到位权矩阵。
进一步的技术方案,还包括:
对获取的不同模态训练数据的特征进行核化,得到核化后的特征矩阵,基于学习得到的哈希码矩阵,通过核逻辑回归模型学习得到不同模态的哈希函数。
进一步的技术方案,所述带权海明距离的计算过程,具体包括:
获取训练集样本数据哈希码与待检索数据哈希码,对哈希码进行分段,在每个分段上执行异或运算,得到每个分段的字节类型值;
使用学习得到的位权矩阵构造各分段的查找表;
根据各个分段的字节类型值访问相应的查找表,计算每一分段的浮点值,通过对所有分段的浮点值求和得到待检索数据和训练集样本数据之间的带权海明距离。
进一步的技术方案,根据带权海明距离输出检索结果,具体包括:
计算待检索数据哈希码与训练集中所有样本数据哈希码的带权海明距离后,根据带权海明距离对数据库中样本从小到大排序,选择前k个样本作为检索结果输出,其中,k为不小于1的整数。
第二方面,本公开提供了一种基于带权哈希码的多媒体数据跨模态检索***,包括:
训练样本集构建模块,用于获取不同模态的多媒体数据,构建训练样本集;
哈希检索模型训练模块,用于对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;所述哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数;
检索模块,用于将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,计算该待检索数据的哈希码与数据库中样本数据哈希码的带权海明距离,根据该带权海明距离输出检索结果。
进一步的技术方案,所述哈希检索模型的训练过程具体包括:
利用聚类算法将训练集中的训练数据划分为多组,构造每组的局部类别关联矩阵,根据局部类别关联矩阵和语义标签,获得每组的局部标签分布矩阵,组合得到训练样本的全局标签分布矩阵;
利用生成的标签分布矩阵构造相似度矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数,求解获得哈希码矩阵和位权矩阵。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
以上一个或多个技术方案存在以下有益效果:
1、本发明提供了一种基于带权哈希码的多媒体数据跨模态检索方法及***,通过挖掘标签的拓扑结构信息对语义标签提升,得到标签分布矩阵,基于该标签分布矩阵构造精细的相似度矩阵,根据该标签分布矩阵构造相似度矩阵,构建使带权哈希码近似该相似度矩阵的目标函数,通过学习获得哈希码和位权矩阵,这一方案利用逻辑值的语义标签的拓扑结构信息,携带更多的语义信息,并且通过学习各位哈希码的权重,强调不同码的独特贡献,有效提高跨模态的检索能力。
2、本发明提供了一种高效的离散优化算法来求解哈希码的离散约束问题,降低了量化误差,并且能在线性时间内完成,可扩展于超大规模的应用场景。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例所述基于带权哈希码的多媒体数据跨模态检索方法的整体流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于带权哈希码的多媒体数据跨模态检索方法,通过挖掘数据语义标签的拓扑结构信息对语义标签提升,得到标签分布矩阵,根据该标签分布矩阵构造相似度矩阵,学习获得使带权哈希码近似该相似度矩阵的哈希码和位权矩阵,再通过核逻辑回归模型学习得到不同模态的哈希函数,获取训练完成的哈希检索模型,将待查询数据输入该哈希检索模型,输出检索结果。如图1所示,本实施例上述方法具体包括以下步骤:
步骤S1,构建训练集。在本步骤中,获取用户发布在社交多媒体平台的图像、文本、音频、视频等多媒体数据,构建数据库,将数据库中不同模态的多媒体数据作为训练样本,构成训练集。在本实施例中,不同模态数据包括图像数据、文本数据等。
步骤S2,对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型。该哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数。
在本实施例中,对图像、文本样本数据进行特征提取,针对图像数据,采用基于SIFT或GIST方法提取图像特征,针对文本数据,采用基于BoW方法提取文本特征,利用提取的图像文本对的图像特征和文本特征训练哈希检索模型,学习得到图像、文本多媒体数据的统一哈希码表示B,以及对应图像模态的哈希函数H1、对应文本模态的哈希函数H2
上述哈希检索模型的训练过程具体包括如下步骤:
步骤S2.1,利用聚类算法将训练集中的训练数据划分为p组,构造每组的局部类别关联矩阵,根据局部类别关联矩阵和语义标签,获得每组的局部标签分布矩阵,组合得到训练样本的全局标签分布矩阵。
所述步骤S2.1的具体过程为:
步骤S2.1.1,利用聚类算法如k-means算法对训练样本特征进行聚类,将训练集中的训练数据划分位p组。针对每组训练数据,定义局部的类别关联矩阵,即:
Figure BDA0003927445420000061
其中,
Figure BDA0003927445420000062
为训练集样本数据的语义标签矩阵,c为标签类别数,n为训练集样本数,
Figure BDA0003927445420000063
是行归一化的第m组语义标签矩阵。需要说明的是,整个训练集的语义标签矩阵指取值为1和0的逻辑标签矩阵,具体而言,对于该矩阵中的每个元素,如Lij=1,表示训练集中第j个样本属于第i个类别,否则Lij=0,表示训练集中第j个样本不属于第i个类别;进而,对于分组后的语义标签矩阵Lm,[Lm]ij=1表示第m组第j个样本属于第i个类别,否则[Lm]ij=0表示第m组第j个样本不属于第i个类别。
步骤S2.1.2,利用步骤S2.1.1定义的类别关联矩阵和训练集样本的语义标签定义学习标签分布的目标函数,该目标函数主要包含两部分:1)标签分布应与语义标签尽可能相似;2)同一组内所有样本在任意两个类别上的标签分布向量间距离应与相应的语义类别值保持一致。该目标函数为:
Figure BDA0003927445420000071
其中,α是用于调整前后两项贡献的平衡参数,
Figure BDA0003927445420000072
Figure BDA0003927445420000073
分别为标签分布矩阵、语义标签矩阵和类别关联矩阵,c为标签类别数,n为训练集样本数,矩阵下标m表示通过对训练数据特征聚类后的分组组号,下标*表示对应矩阵取满该列或行,如[Dm]i*表示矩阵第i行这一整行。
步骤S2.1.3,对上述目标函数公式求导并使导数为0,得到第m组的标签分布矩阵,即:
Figure BDA0003927445420000074
其中,
Figure BDA0003927445420000075
是Cm的拉普拉斯矩阵,
Figure BDA0003927445420000076
是一个全1矩阵。通过计算所有组的局部标签分布矩阵,组合即可得到训练样本的全局标签分布矩阵。值得注意的是,每组可以平行计算以加快效率。
步骤S2.2,利用步骤S2.1生成的全局标签分布矩阵构造含有更多语义信息和拓扑结构信息的相似度矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数;初始化位权矩阵为单位矩阵,引入中间变量解决对称内积造成的四次方复杂度,并引入平衡和不相关约束减少量化误差,求解得到哈希码矩阵;通过对该目标函数求导并使导数为0,结合计算得到的哈希码矩阵和相似度矩阵,求解得到位权矩阵。通过这一步骤,完成哈希码的学习与训练。
所述步骤S2.2的具体过程为:
步骤S2.2.1,利用步骤S2.1生成的标签分布矩阵构造含有更多语义信息和拓扑结构信息的相似度矩阵,为:
Figure BDA0003927445420000081
其中,
Figure BDA0003927445420000082
是列归一化后的标签分布矩阵。为了避免n×n大小的矩阵,在使用时,直接使用上式(4)右边计算。
设置哈希码矩阵使其近似相似度矩阵,并考虑到每位哈希码的特殊性,给每位哈希码加上不同的权重,该对哈希码矩阵中每一哈希码加入的权重构成的矩阵即位权矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数,该目标函数定义如下:
Figure BDA0003927445420000083
其中,B∈{-1,1}r×n是训练集的哈希码矩阵,
Figure BDA0003927445420000084
是强调哈希码重要性的位权矩阵,为对角矩阵,
Figure BDA0003927445420000085
是由标签关联矩阵定义的相似度矩阵,r为哈希码的位数,也即哈希码的长度。
步骤S2.2.2,初始化位权矩阵Λ为单位矩阵,引入一个中间变量Q替换上述式(5)所示的目标函数中的一个哈希码矩阵。为了减少量化误差,在中间变量Q上增加平衡和不相关约束,目标函数变为:
Figure BDA0003927445420000086
基于上述目标函数,使用一个两步迭代策略求解哈希码矩阵,具体的求解方法为:
首先,用标准正态分布随机初始化哈希码矩阵B和中间变量Q;
然后,固定哈希码矩阵B,将式(6)的目标函数转换为矩阵迹的形式:
Figure BDA0003927445420000087
定义Z=rBS和
Figure BDA0003927445420000091
根据相似度矩阵S的定义,则:
Figure BDA0003927445420000092
对ZJZT进行矩阵分解,得:
Figure BDA0003927445420000093
其中,∑是由r′≤r个正特征值组成的对角矩阵,V是对应的特征向量组成的矩阵,
Figure BDA0003927445420000094
是其余的零特征值对应的特征向量组成的矩阵。对
Figure BDA0003927445420000095
做施密特正交化得到正交矩阵
Figure BDA0003927445420000096
对一个随机矩阵做施密特正交化得到一个随机正交矩阵
Figure BDA0003927445420000097
定义U=JZTV∑-1/2,公式的解为:
Figure BDA0003927445420000098
其次,同样地,固定中间变量Q,将公式(6)转换为矩阵迹的形式:
Figure BDA0003927445420000099
代入相似度矩阵S的定义,其闭式解为:
Figure BDA00039274454200000910
其中,sign(·)是符号函数。
上述求解方案采用两步迭代策略,首先初始化哈希码矩阵B和中间变量Q,然后迭代更新哈希码矩阵B和中间变量Q:更新哈希码矩阵B时固定中间变量Q,利用式(12)求解,更新中间变量Q时固定哈希码矩阵B,利用式(10)求解。哈希码矩阵B和中间变量Q从初始值开始,利用式(10)和式(12)不断迭代更新,直至收敛,即式(6)所示目标函数的值不再降低。通过上述方案求解得到哈希码矩阵的最优解。
步骤S2.2.3,在求解得到哈希码的最优解后,令式(5)的目标函数对位权矩阵Λ的导数为零,求解得到位权矩阵Λ,即:
A=diag(r((BBT)⊙(BBT))-1diag(BSBT)) (13)
其中,diag(·)表示取矩阵的对角线元素为一个新的对角矩阵,⊙为元素级的乘法。
步骤S2.3,对获取的不同模态训练数据的特征进行核化,得到核化后的特征矩阵,基于步骤S2.2学习得到的哈希码矩阵,通过核逻辑回归模型学习得到不同模态的哈希函数。
所述步骤S2.3的具体过程为:
步骤S2.3.1,对不同模态训练数据的特征进行核化,具体为:
Figure BDA0003927445420000101
其中,
Figure BDA0003927445420000102
是训练集第l模态的特征矩阵,
Figure BDA0003927445420000103
是第i个样本,φl(·)表示核函数,具体可用径向基函数RBF等函数,n为训练集样本数,d为特征维度,核化后变为k维,即
Figure BDA0003927445420000104
步骤S2.3.2,通过步骤S2.2.2中两步迭代策略计算得到的哈希码矩阵,使用核逻辑回归模型学习得到哈希函数,具体采用如下目标函数:
Figure BDA0003927445420000105
其中,ξ是用于避免过拟合和的正则化项系数,
Figure BDA0003927445420000106
是要学习的第l模态的投影矩阵,B∈{-1,1}r×n是训练集的哈希码,X(l)为训练集样本第l模态的特征,φl(X(l))将第l模态的核化特征矩阵,r为哈希码的位数。
对公式(15)求导并使导数位为零,求解得到投影矩阵:
W(l)=Bφi(X(l))Tl(X(l)l(X(l))T+ξI)-1 (16)
此时,对于第l模态的待检索数据,其哈希码可以通过下述哈希函数计算得到:
Hl(x(l))=sign(W(l)φl(x(l))) (17)
步骤S3,将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码表示,计算该待检索数据的哈希码表示与数据库中样本数据哈希码的带权海明距离,根据该带权海明距离输出检索结果。
上述步骤S3中输出检索结果的具体过程为:
步骤S3.1,计算训练集样本数据哈希码与待检索数据哈希码的带权海明距离,具体为:获取待检索数据哈希码p和训练集某一样本数据哈希码q,按照每8位从后向前分段,不足8位补0,在每个分段上执行异或运算并将结果表示为字节类型数据。如,对于公式(12)计算得到的某一训练集样本数据的哈希码p和待检索数据的哈希码q,按照每8位从后向前分为s段,最后不足8位的补0,最终划分为[p1;p2;...;ps]和[q1;q2;...;qs]。在每个分段pi和qi上执行异或运算,并将得到的结果表示为字节类型值vi,如vi=0x01111111=127。
步骤S3.2,使用上述步骤S2学习得到的位权矩阵构造各分段的查找表,具体表示为:
wij=Λ8(i-1)+j (18)
其中,i表示分段的段号,j={1,2,…,8},表示步骤S3.1得到第i段分段的字节类型值的二进制形式中某个1值出现的位数。
步骤S3.3,根据各个分段的字节类型值访问相应的查找表,计算每一分段的浮点值,通过对所有分段的浮点值求和得到待检索数据和训练集样本数据之间的带权海明距离。
根据在各个分段上执行异或运算得到的字节类型值计算得到每个分段的浮点值,具体的,根据第i段的字节类型值vi,计算浮点值ui,ui为vi所有为1的位在相应查找表上的取值之和,如vi=21=0x00010101,浮点值ui=wi5+wi3+Wi1
对于训练集样本数据的哈希码p和待检索数据的哈希码q,其带权海明距离为各分段上浮点值ui之和,即:
Figure BDA0003927445420000111
步骤S3.4,通过上述方案计算待检索数据哈希码q与训练集中所有样本数据哈希码的带权海明距离,根据带权海明距离对数据库中样本从小到大排序,选择前k个样本作为检索结果输出,其中,k为不小于1的整数。
在本实施例中,利用训练完成的哈希检索模型对待检索数据进行检索的过程及检索结果为:
1)图像to文本。用户输入一幅图像作为查询样本,首先将该查询图片通过哈希函数H1转换为哈希码表示b,然后计算b与数据库哈希码B的海明距离并排序,返回距离小的top-k个文本作为检索结果。
2)文本to图像。用户输入一段文本作为查询样本,首先将该查询文本通过哈希函数H2转化为哈希码表示b,然后计算b与数据库哈希码B的海明距离并排序,返回距离小的top-k个图片作为检索结果。
实施例二
本实施例提供了一种基于带权哈希码的多媒体数据跨模态检索***,包括:
训练样本集构建模块,用于获取不同模态的多媒体数据,构建训练样本集;
哈希检索模型训练模块,用于对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;所述哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数;
检索模块,用于将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,计算该待检索数据的哈希码与数据库中样本数据哈希码的带权海明距离,根据该带权海明距离输出检索结果。
实施例三
本实施例提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如上所述的基于带权哈希码的多媒体数据跨模态检索方法中的步骤。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如上所述的基于带权哈希码的多媒体数据跨模态检索方法中的步骤。
以上实施例二至四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于带权哈希码的多媒体数据跨模态检索方法,其特征是,包括:
获取不同模态的多媒体数据,构建训练样本集;
对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;所述哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数;
将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,根据该待检索数据哈希码与数据库中样本数据哈希码的带权海明距离,输出检索结果。
2.如权利要求1所述的基于带权哈希码的多媒体数据跨模态检索方法,其特征是,所述哈希检索模型的训练过程具体包括:
利用聚类算法将训练集中的训练数据划分为多组,构造每组的局部类别关联矩阵,根据局部类别关联矩阵和语义标签,获得每组的局部标签分布矩阵,组合得到训练样本的全局标签分布矩阵;
利用生成的标签分布矩阵构造相似度矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数,求解获得哈希码矩阵和位权矩阵。
3.如权利要求2所述的基于带权哈希码的多媒体数据跨模态检索方法,其特征是,所述求解过程为:
初始化位权矩阵为单位矩阵,引入中间变量以及平衡和不相关约束,求解得到哈希码矩阵;
通过对目标函数求导并使导数为0,结合计算得到的哈希码矩阵和相似度矩阵,求解得到位权矩阵。
4.如权利要求2所述的基于带权哈希码的多媒体数据跨模态检索方法,其特征是,还包括:
对获取的不同模态训练数据的特征进行核化,得到核化后的特征矩阵,基于学习得到的哈希码矩阵,通过核逻辑回归模型学习得到不同模态的哈希函数。
5.如权利要求1所述的基于带权哈希码的多媒体数据跨模态检索方法,其特征是,所述带权海明距离的计算过程,包括:
获取训练集样本数据哈希码与待检索数据哈希码,对哈希码进行分段,在每个分段上执行异或运算,得到每个分段的字节类型值;
使用学习得到的位权矩阵构造各分段的查找表;
根据各个分段的字节类型值访问相应的查找表,计算每一分段的浮点值,通过对所有分段的浮点值求和得到待检索数据和训练集样本数据之间的带权海明距离。
6.如权利要求1所述的基于带权哈希码的多媒体数据跨模态检索方法,其特征是,根据带权海明距离输出检索结果,包括:
计算待检索数据哈希码与训练集中所有样本数据哈希码的带权海明距离后,根据带权海明距离对数据库中样本从小到大排序,选择前k个样本作为检索结果输出,其中,k为不小于1的整数。
7.一种基于带权哈希码的多媒体数据跨模态检索***,其特征是,包括:
训练样本集构建模块,用于获取不同模态的多媒体数据,构建训练样本集;
哈希检索模型训练模块,用于对训练样本进行特征提取,获取不同模态的训练样本的特征,训练哈希检索模型;所述哈希检索模型包括哈希码和哈希函数,基于训练样本的特征和语义标签,学习训练集样本数据的哈希码和位权矩阵;基于训练样本的特征和哈希码,学习不同模态的哈希函数;
检索模块,用于将待检索数据输入训练完成的哈希检索模型,根据提取的待检索数据的特征,结合该待检索数据相应模态的哈希函数,获得待检索数据的哈希码,根据该待检索数据哈希码与数据库中样本数据哈希码的带权海明距离,输出检索结果。
8.如权利要求7所述的一种基于带权哈希码的多媒体数据跨模态检索***,其特征是,所述哈希检索模型的训练过程具体包括:
利用聚类算法将训练集中的训练数据划分为多组,构造每组的局部类别关联矩阵,根据局部类别关联矩阵和语义标签,获得每组的局部标签分布矩阵,组合得到训练样本的全局标签分布矩阵;
利用生成的标签分布矩阵构造相似度矩阵,通过将带权哈希码内积近似该相似度矩阵构建目标函数,求解获得哈希码矩阵和位权矩阵。
9.一种电子设备,其特征是:包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-6中任一项所述的一种基于带权哈希码的多媒体数据跨模态检索方法的步骤。
10.一种计算机可读存储介质,其特征是:用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-6中任一项所述的一种基于带权哈希码的多媒体数据跨模态检索方法的步骤。
CN202211377750.1A 2022-11-04 2022-11-04 基于带权哈希码的多媒体数据跨模态检索方法及*** Pending CN115795065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211377750.1A CN115795065A (zh) 2022-11-04 2022-11-04 基于带权哈希码的多媒体数据跨模态检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211377750.1A CN115795065A (zh) 2022-11-04 2022-11-04 基于带权哈希码的多媒体数据跨模态检索方法及***

Publications (1)

Publication Number Publication Date
CN115795065A true CN115795065A (zh) 2023-03-14

Family

ID=85435609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211377750.1A Pending CN115795065A (zh) 2022-11-04 2022-11-04 基于带权哈希码的多媒体数据跨模态检索方法及***

Country Status (1)

Country Link
CN (1) CN115795065A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及***
CN116244484A (zh) * 2023-05-11 2023-06-09 山东大学 一种面向不平衡数据的联邦跨模态检索方法及***
CN118093907A (zh) * 2024-04-22 2024-05-28 山东建筑大学 融合相似性的在线哈希多媒体数据跨模态检索方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244484A (zh) * 2023-05-11 2023-06-09 山东大学 一种面向不平衡数据的联邦跨模态检索方法及***
CN116244484B (zh) * 2023-05-11 2023-08-08 山东大学 一种面向不平衡数据的联邦跨模态检索方法及***
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及***
CN118093907A (zh) * 2024-04-22 2024-05-28 山东建筑大学 融合相似性的在线哈希多媒体数据跨模态检索方法及***

Similar Documents

Publication Publication Date Title
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
Xia et al. Supervised hashing for image retrieval via image representation learning
Lin et al. Supervised hashing using graph cuts and boosted decision trees
Liu et al. Sequential discrete hashing for scalable cross-modality similarity retrieval
Zhang et al. Supervised hashing with latent factor models
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
Kong et al. Manhattan hashing for large-scale image retrieval
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
Huang et al. Cost-effective vehicle type recognition in surveillance images with deep active learning and web data
Gu et al. Clustering-driven unsupervised deep hashing for image retrieval
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及***
CN104199923B (zh) 基于最优k均值哈希算法的大规模图像库检索方法
CN106777388B (zh) 一种双重补偿的多表哈希图像检索方法
Wei et al. Projected residual vector quantization for ANN search
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
Xie et al. Deep determinantal point process for large-scale multi-label classification
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
Zhang et al. Deep unsupervised self-evolutionary hashing for image retrieval
Liu et al. Online optimized product quantization
Li et al. Sub-selective quantization for large-scale image search
Dong et al. Discriminative geometric-structure-based deep hashing for large-scale image retrieval
Ding et al. kNN hashing with factorized neighborhood representation
CN111984800B (zh) 基于字典对学习的哈希跨模态信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination