CN111368176A - 基于监督语义耦合一致的跨模态哈希检索方法及*** - Google Patents

基于监督语义耦合一致的跨模态哈希检索方法及*** Download PDF

Info

Publication number
CN111368176A
CN111368176A CN202010134513.7A CN202010134513A CN111368176A CN 111368176 A CN111368176 A CN 111368176A CN 202010134513 A CN202010134513 A CN 202010134513A CN 111368176 A CN111368176 A CN 111368176A
Authority
CN
China
Prior art keywords
modal
data
mode
sample
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010134513.7A
Other languages
English (en)
Other versions
CN111368176B (zh
Inventor
杨帆
丁晓剑
刘禹锋
刘健
曹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN202010134513.7A priority Critical patent/CN111368176B/zh
Publication of CN111368176A publication Critical patent/CN111368176A/zh
Application granted granted Critical
Publication of CN111368176B publication Critical patent/CN111368176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于监督语义耦合一致的跨模态哈希检索方法及***,该方法包括:提取各模态数据库中模态样本数据的特征,构建样本库集合;求取样本库集合中各模态样本的哈希编码;提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。本发明不仅考虑了高层语义关系,同时还考虑了各个模态之间的内联耦合性,使得各个模态不仅能够监督学习到自身的哈希码,同时也能够保持各个模态间的语义一致性。本发明能够有效提升哈希码的判别力度和紧凑鲁棒性,加速模态间的检索速率,提升跨模态检索的准确率。

Description

基于监督语义耦合一致的跨模态哈希检索方法及***
技术领域
本发明属于电子商务,多媒体智能及数据挖掘技术领域,特别涉及一种基于监督语义耦合一致的跨模态哈希检索方法及***。
背景技术
随着网络智能媒体技术的快速发展,信息检索也呈现多元化形态,而多元化检索的需求不仅仅涉及到传统单一模态情景下的内容检索,也涉及到多模态之间互相关的内容检索,通过多模态信息检索能够更加全面的展现检索内容所包含的数据信息。如:可利用检索的文本信息,产生对应语义相关性的图像信息、视频信息、语音信息等各种模态数据信息。而不同模态之间的信息关联性需在检索前,进行相应的信息挖掘,从而诞生了通过利用一种模态的信息内容来搜索与之关联的其他模态数据的方法,称为跨模态检索技术。
为了能够将各模态下的信息建立相互关联性,通过构建一种公共子空间的方式,通过利用投影映射转换将各个模态下的数据特征信息进行相似性度量,实现各个模态下关联度较大的特征具有内联性,既而有效解决跨模态数据信息的检索。如:论文“RasiwasiaN,Pereira J C,Coviello E,et al.A New Approach to Cross-Modal MultimediaRetrieval.”中提出了一种相关分析CCA方法,通过构建投影矩阵进行最大化度量各个模态数据特征信息间的相似性;论文“Putthividhya D,Attias H T,Nagarajan S S.Topicregression multi-modal Latent Dirichlet Allocation for image annotation.”中通过借鉴狄利克雷模型,构建了基于主题回归模型的跨模态检索方法,其分别对不同模态进行独自学习该模态的潜在主题信息,结合回归模型来建立各个模态间的潜在主题关系,能够较好的刻画不同模态间的语义关联性,但是这类方法通常对模态的主体分布要求有较强的假设,为此在实际应用过程中具有一定的局限性。鉴于不同模态的类型不一致且分布在各种空间中,当前主流方法是通过学习不同模态类型特征的中间的公共空间,并在共同空间中对各个模态特征进行相似性度量,以此实现跨模态的检索;然而大多数算法都忽略了模态特征表示的语义关联性,即没有充分考虑到各个模态间的语义信息以及各模态自身的内联信息,导致模态特征类别辨析度不强,降低查询的精准性和鲁棒性。
发明内容
本发明的目的在于提供一种能使得各个模态不仅能够监督学习到自身的哈希码,同时也能够保持各个模态间的语义一致性的跨模态哈希检索方法及***。
实现本发明目的的技术解决方案为:一种基于监督语义耦合一致的跨模态哈希检索方法,包括以下步骤:
步骤1,提取各模态数据库中模态样本数据的特征,构建样本库集合;
步骤2,求取样本库集合中各模态样本的哈希编码;
步骤3,提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
步骤4,对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
进一步地,步骤1所述提取各模态数据库中模态样本数据的特征,构建样本库集合,具体包括:
步骤1-1,针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
步骤1-2,利用训练后的模型提取对应模态样本数据的特征;
步骤1-3,根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
进一步地,步骤2所述求取样本库集合中各模态样本的哈希编码,具体包括:
步骤2-1,构建各模态对应的线性分离器损失函数;
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为
Figure BDA0002396871220000025
以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure BDA0002396871220000021
Figure BDA0002396871220000022
式中,
Figure BDA0002396871220000023
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure BDA0002396871220000024
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure BDA0002396871220000031
Figure BDA0002396871220000032
式中,
Figure BDA0002396871220000033
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数;
步骤2-2,定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure BDA0002396871220000034
Figure BDA0002396871220000035
Figure BDA0002396871220000036
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
由此构建模态近邻约束损失函数:
Figure BDA0002396871220000037
Figure BDA0002396871220000038
式中,ν为模态近邻约束损失函数的约束平衡参数;
步骤2-3,利用矩阵运算将模态近邻约束损失函数转换为:
Figure BDA0002396871220000039
Figure BDA00023968712200000310
式中,tr(·)为矩阵的迹,
Figure BDA00023968712200000311
步骤2-4,利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数:
Figure BDA0002396871220000041
式中,λ、θ均为耦合语义一致性损失函数的平衡参数;
步骤2-5,结合上述步骤2-1至步骤2-4,构建全局损失函数:
Figure BDA0002396871220000042
步骤2-6,求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
步骤2-7,进一步求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。
进一步地,步骤2-7求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值,采用的求解方式为:求解某一参数时,固定其余参数,进行迭代更新优化求解,直至收敛。
进一步地,步骤3所述提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码,具体过程包括:
假设待检索模态数据的特征为d,根据步骤2-7获得的F1或F2求取待检索模态数据的哈希编码:
B=F1d或F2d
之后进一步求取待检索模态数据的离散哈希编码:
b=sign(B)=sign(F1d)或sign(F2d)。
进一步地,步骤4所述对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果,具体包括:
求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
一种基于监督语义耦合一致的跨模态哈希检索***,所述***包括:
样本库构建模块,用于提取各模态数据库中模态样本数据的特征,构建样本库集合;
第一求取模块,用于求取样本库集合中各模态样本的哈希编码;
第二求取模块,用于提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
检索模块,用于对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
进一步地,所述样本库构建模块包括:
模型构建及训练单元,用于针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
特征提取单元,用于利用训练后的模型提取对应模态样本数据的特征;
样本库构建单元,用于根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
进一步地,所述第一求取模块包括:
第一损失函数构建单元,用于构建各模态对应的线性分离器损失函数;
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为
Figure BDA0002396871220000058
以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure BDA0002396871220000051
Figure BDA0002396871220000052
式中,
Figure BDA0002396871220000053
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure BDA0002396871220000054
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure BDA0002396871220000055
Figure BDA0002396871220000056
式中,
Figure BDA0002396871220000057
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数;
第二损失函数构建单元,用于定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure BDA0002396871220000061
Figure BDA0002396871220000062
Figure BDA0002396871220000063
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
由此构建模态近邻约束损失函数:
Figure BDA0002396871220000064
Figure BDA0002396871220000065
式中,ν为模态近邻约束损失函数的约束平衡参数;
第三损失函数构建单元,用于利用矩阵运算将模态近邻约束损失函数转换为:
Figure BDA0002396871220000066
Figure BDA0002396871220000067
式中,tr(·)为矩阵的迹,
Figure BDA0002396871220000068
第四损失函数构建单元,用于利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数:
Figure BDA0002396871220000069
式中,λ、θ均为耦合语义一致性损失函数的平衡参数;
第五损失函数构建单元,用于结合上述损失函数,构建全局损失函数:
Figure BDA0002396871220000071
第一求取单元,用于求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
第二求取单元,用于求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。
进一步地,所述检索模块包括:
第三求取单元,用于求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
检索单元,用于将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
本发明与现有技术相比,其显著优点为:1)将各个模态数据学习到各自具有判别性的离散哈希码,且对每个模态间的哈希表示进行交替耦合表示,并结合模态数据的局部流行结构一致性,有效提升了各模态学到的哈希码的判别力度和紧凑鲁棒性,同时也提高了模态内间的数据信息区分能力;2)考虑到多媒体模态数据量不断增长,需使用高效的模态检索方式来进行处理,为此本发明利用学习到的编码二进制哈希码,加速各个模态间的检索速率,有利于实现对大规模数据集进行快速检索。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中基于监督语义耦合一致的跨模态哈希检索方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,结合图1,提供了一种基于监督语义耦合一致的跨模态哈希检索方法,该方法包括以下步骤:
步骤1,提取各模态数据库中模态样本数据的特征,构建样本库集合;
步骤2,求取样本库集合中各模态样本的哈希编码;
步骤3,提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
步骤4,对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
进一步地,在其中一个实施例中,上述步骤1提取各模态数据库中样本数据的特征,构建样本库集合,具体包括:
步骤1-1,针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
步骤1-2,利用训练后的模型提取对应模态样本数据的特征;
步骤1-3,根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
进一步地,在其中一个实施例中,上述步骤2求取样本库集合中各模态样本的哈希编码,具体包括:
步骤2-1,为了能够学习各个模态的哈希映射,将各个模态映射到汉明空间中,构建线性分离器模型来学习各个模态的哈希编码:
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为b1i以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure BDA0002396871220000081
Figure BDA0002396871220000082
式中,
Figure BDA0002396871220000083
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数,该正则化参数是为了避免第一模态的线性分类器出现过拟合;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure BDA0002396871220000084
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure BDA0002396871220000085
Figure BDA0002396871220000086
式中,
Figure BDA0002396871220000091
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数,该正则化参数是为了避免第二模态的线性分类器出现过拟合;
步骤2-2,为了能够保持第一模态以及第二模态在其原始空间中的流行近邻关系,定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure BDA0002396871220000092
Figure BDA0002396871220000093
Figure BDA0002396871220000094
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
为此构建模态近邻约束损失函数:
Figure BDA0002396871220000095
Figure BDA0002396871220000096
式中,ν为模态近邻约束损失函数的约束平衡参数;
步骤2-3,利用矩阵运算将模态近邻约束损失函数转换为:
Figure BDA0002396871220000097
Figure BDA0002396871220000098
式中,tr(·)为矩阵的迹,
Figure BDA0002396871220000099
步骤2-4,为了能够使得第一模态和第二模态分别学习到相互之间的语义一致性,利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数为:
Figure BDA0002396871220000101
式中,λ、θ为耦合语义一致性损失函数的平衡参数,以使耦合语义一致性损失函数在求解参数时达到最优。
步骤2-5,结合上述步骤2-1至步骤2-4,构建全局损失函数:
Figure BDA0002396871220000102
步骤2-6,求解上述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
步骤2-7,求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。这里,符号函数b=sign(a)表示,如果a值大于等于0,则b值对应转换为1值,如果a值小于0值,则b值转换为0值。
进一步地,在其中一个实施例中,由于Lloss目标函数是一个非凸函数,无法直接进行求解,因此上述步骤2-7求解全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值,采用的求解方式为:求解某一参数时,固定其余参数,进行迭代更新优化求解,直至收敛。
具体过程包括:
利用随机矩阵对参数B1,B2,F1,F2,W1,W2进行初始化处理;
通过中心化处理对第一模态特征和第二模态特征矩阵P_marry、Q_marry构建拉普拉斯矩阵;
固定参数B1,B2,F1,F2,W1,对W2求偏导;
固定参数B1,B2,F1,F2,W2,对W1求偏导;
固定参数B1,B2,F1,W1,W2,对F2求偏导;
固定参数B1,B2,F2,W1,W2,对F1求偏导;
固定参数B1,F1,F2,W1,W2,对B2求偏导;
固定参数B2,F1,F2,W1,W2,对B1求偏导。
通过不断迭代更新上述未知六个参数,直到收敛。
进一步地,在其中一个实施例中,上述步骤3提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码,具体过程包括:
假设待检索模态数据的特征为d,根据步骤2-7获得的F1或F2求取待检索模态数据的哈希编码:
B=F1d或F2d
之后进一步求取待检索模态数据的离散哈希编码:
b=sign(B)=sign(F1d)或sign(F2d)。
进一步地,在其中一个实施例中,上述步骤4对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果,具体包括:
求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
作为一种具体示例,以图像模态和文本模态为例,本发明基于监督语义耦合一致的跨模态哈希检索方法包括:
1)构建13个卷积层,3个全连接层和5个池化层的卷积神经网络VGG16模型,并对VGG16模型进行训练,之后利用训练后的VGG16模型对图像模态数据库中的图像进行特征提取;
2)构建一个全局向量GloVe模型对文本数据进行建模,其通过对单词进行转换成具有语义特性向量形式,对GloVe模型进行训练,之后利用训练后的GloVe模型对文本模态数据库中的文本进行特征提取。
3)根据上述提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为图像数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为文本数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
4)针对图像数据特征中的样本pi,假设其转化后的哈希二位码为
Figure BDA0002396871220000111
以及对应的标签为yi,由此构建图像线性分离器损失函数:
Figure BDA0002396871220000112
Figure BDA0002396871220000113
式中,
Figure BDA0002396871220000121
为图像样本对应的哈希编码矩阵,k为哈希码的位数,WIma为图像的线性分离器,μ为图像的线性分离器的正则化参数。
5)针对文本数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure BDA00023968712200001212
以及对应的标签为yi,由此构建文本线性分离器损失函数:
Figure BDA0002396871220000122
Figure BDA0002396871220000123
其中,
Figure BDA0002396871220000124
为文本样本对应的哈希编码矩阵,k为哈希码的位数,WTex为文本的线性分离器,μ为文本的线性分离器的正则化参数。
6)为了能够保持图像模态以及文本模态在其原始空间中的流行近邻关系,定义图像和文本模态的邻近区域相似性矩阵
Figure BDA0002396871220000125
Figure BDA0002396871220000126
Figure BDA0002396871220000127
其中,Nm(p)为图像特征数据p的m近邻集合,Nm(q)为文本特征数据q的m近邻集合。这里,优选地,设定m=5。
7)由于图像模态的特征信息在局部区域内具有相似性,为此利用哈希二位码进行相似性度量,从而约束图像和文本的具有近邻一致性,为此构建模态近邻约束损失函数:
Figure BDA0002396871220000128
Figure BDA0002396871220000129
式中,ν为损失函数的约束平衡参数;
利用矩阵运算将上述模态近邻约束损失函数转换为:
Figure BDA00023968712200001210
Figure BDA00023968712200001211
式中,tr(·)为矩阵的迹,
Figure BDA0002396871220000131
8)为了能够使得图像模态和文本模态分别学习到相互之间的语义一致性,利用映射矩阵FIma,FTex分别将文本和图像特征转换对应的哈希编码矩阵:
BIma=FImaP_marry,BTex=FTexQ_marry
为此构建各个模态相互间的耦合语义一致性损失函数:
Figure BDA0002396871220000132
9)根据上述过程构建全局损失函数:
Figure BDA0002396871220000133
10)求解全局损失函数,获取参数BIma,BTex,FIma,FTex,WIma,WTex的值,采用的求解方式为:求解某一参数时,固定其余参数,进行迭代更新优化求解,直至收敛。
11)求取符号函数sign(BIma)和sign(BTex),分别获得样本库集合中图像模态、文本模态对应的含有0和1的离散哈希编码矩阵。
12)假设待检索模态数据为图像模态时,利用FIma求取待检索模态数据的哈希编码:
BIma=FImad
进而求取待检索模态数据的离散哈希编码bIma
bIma=sign(BIma)=sign(FImad)
之后求取待检索模态数据的哈希编码bIma与数据库中文本模态对应的哈希编码的汉明距离,汉明距离最小的即为搜索到的待检索图像模态对应的文本模态中相似的样本数据信息;
假设待检索模态数据为文本模态时,利用FTex求取待检索模态数据的哈希编码:
BTex=FTexd
进而求取待检索模态数据的哈希编码bTex
bTex=sign(BTex)=sign(FTexd)
之后求取待检索模态数据的哈希编码bTex与数据库中图像模态对应的哈希编码的汉明距离,汉明距离最小的即为搜索到的待检索文本模态对应的图像模态中相似的样本数据信息。
在一个实施例中,提供了一种基于监督语义耦合一致的跨模态哈希检索***,该***包括:
样本库构建模块,用于提取各模态数据库中模态样本数据的特征,构建样本库集合;
第一求取模块,用于求取样本库集合中各模态样本的哈希编码;
第二求取模块,用于提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
检索模块,用于对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
进一步地,在其中一个实施例中,上述样本库构建模块包括:
模型构建及训练单元,用于针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
特征提取单元,用于利用训练后的模型提取对应模态样本数据的特征;
样本库构建单元,用于根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
进一步地,在其中一个实施例中,上述第一求取模块包括:
第一损失函数构建单元,用于构建各模态对应的线性分离器损失函数;
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为
Figure BDA0002396871220000141
以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure BDA0002396871220000142
Figure BDA0002396871220000143
式中,
Figure BDA0002396871220000144
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure BDA00023968712200001512
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure BDA0002396871220000151
Figure BDA0002396871220000152
式中,
Figure BDA0002396871220000153
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数;
第二损失函数构建单元,用于定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure BDA0002396871220000154
Figure BDA0002396871220000155
Figure BDA0002396871220000156
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
由此构建模态近邻约束损失函数:
Figure BDA0002396871220000157
Figure BDA0002396871220000158
式中,ν为模态近邻约束损失函数的约束平衡参数;
第三损失函数构建单元,用于利用矩阵运算将模态近邻约束损失函数转换为:
Figure BDA0002396871220000159
Figure BDA00023968712200001510
式中,tr(·)为矩阵的迹,
Figure BDA00023968712200001511
第四损失函数构建单元,用于利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数:
Figure BDA0002396871220000161
第五损失函数构建单元,用于结合上述损失函数,构建全局损失函数:
Figure BDA0002396871220000162
第一求取单元,用于求解全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
第二求取单元,用于求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。
进一步地,在其中一个实施例中,上述检索模块包括:
第三求取单元,用于求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
检索单元,用于将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
综上,本发明不仅考虑了高层语义关系,同时还考虑了各个模态之间的内联耦合性,使得各个模态不仅能够监督学习到自身的哈希码,同时也能够保持各个模态间的语义一致性。本发明能够有效提升哈希码的判别力度和紧凑鲁棒性,加速模态间的检索速率,提升跨模态检索的准确率。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,所述方法包括以下步骤:
步骤1,提取各模态数据库中模态样本数据的特征,构建样本库集合;
步骤2,求取样本库集合中各模态样本的哈希编码;
步骤3,提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
步骤4,对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
2.根据权利要求1所述的基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,步骤1所述提取各模态数据库中模态样本数据的特征,构建样本库集合,具体包括:
步骤1-1,针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
步骤1-2,利用训练后的模型提取对应模态样本数据的特征;
步骤1-3,根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
3.根据权利要求2所述的基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,步骤2所述求取样本库集合中各模态样本的哈希编码,具体包括:
步骤2-1,构建各模态对应的线性分离器损失函数;
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为
Figure FDA0002396871210000011
以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure FDA0002396871210000012
Figure FDA0002396871210000013
式中,
Figure FDA0002396871210000014
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure FDA0002396871210000015
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure FDA0002396871210000021
Figure FDA0002396871210000022
式中,
Figure FDA0002396871210000023
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数;
步骤2-2,定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure FDA0002396871210000024
Figure FDA0002396871210000025
Figure FDA0002396871210000026
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
由此构建模态近邻约束损失函数:
Figure FDA0002396871210000027
Figure FDA0002396871210000028
式中,ν为模态近邻约束损失函数的约束平衡参数;
步骤2-3,利用矩阵运算将模态近邻约束损失函数转换为:
Figure FDA0002396871210000029
Figure FDA00023968712100000210
式中,tr(·)为矩阵的迹,
Figure FDA00023968712100000211
步骤2-4,利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数:
Figure FDA0002396871210000031
式中,λ、θ均为耦合语义一致性损失函数的平衡参数;
步骤2-5,结合上述步骤2-1至步骤2-4,构建全局损失函数:
Figure FDA0002396871210000032
步骤2-6,求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
步骤2-7,进一步求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。
4.根据权利要求3所述的基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,步骤2-7求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值,采用的求解方式为:求解某一参数时,固定其余参数,进行迭代更新优化求解,直至收敛。
5.根据权利要求3或4所述的基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,步骤3所述提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码,具体过程包括:
假设待检索模态数据的特征为d,根据步骤2-7获得的F1或F2求取待检索模态数据的哈希编码:
B=F1d或F2d
之后进一步求取待检索模态数据的离散哈希编码:
b=sign(B)=sign(F1d)或sign(F2d)。
6.根据权利要求5所述的基于监督语义耦合一致的跨模态哈希检索方法,其特征在于,步骤4所述对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果,具体包括:
求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
7.一种基于监督语义耦合一致的跨模态哈希检索***,其特征在于,所述***包括:
样本库构建模块,用于提取各模态数据库中模态样本数据的特征,构建样本库集合;
第一求取模块,用于求取样本库集合中各模态样本的哈希编码;
第二求取模块,用于提取待检索模态数据的特征,并根据该特征求取待检索模态数据的哈希编码;
检索模块,用于对比待检索模态数据的哈希编码与各模态样本的哈希编码,对比结果符合预设条件的模态样本即作为待检索模态数据的检索结果。
8.根据权利要求7所述的基于监督语义耦合一致的跨模态哈希检索***,其特征在于,所述样本库构建模块包括:
模型构建及训练单元,用于针对每一模态,构建其对应的数据特征提取模型,并对该模型进行训练;
特征提取单元,用于利用训练后的模型提取对应模态样本数据的特征;
样本库构建单元,用于根据提取的特征构建样本库集合{P_marry,Q_marry,Y_marry},其中P_marry=[p1,p2,p3…,ps]为第一模态数据特征矩阵,Q_marry=[q1,q2,q3…,qs]为第二模态数据特征矩阵,Y_marry=[y1,y2,y3…,ys]为标签数据特征矩阵。
9.根据权利要求8所述的基于监督语义耦合一致的跨模态哈希检索***,其特征在于,所述第一求取模块包括:
第一损失函数构建单元,用于构建各模态对应的线性分离器损失函数;
针对第一模态数据特征矩阵中的样本pi,假设其转化后的哈希二位码为
Figure FDA0002396871210000041
以及对应的标签为yi,由此构建第一模态线性分离器损失函数:
Figure FDA0002396871210000042
Figure FDA0002396871210000043
式中,
Figure FDA0002396871210000044
为样本库集合中第一模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W1为第一模态的线性分离器,μ为第一模态线性分离器的正则化参数;
针对第二模态数据特征矩阵中的样本qi,假设其转化后的哈希二位码为
Figure FDA0002396871210000051
以及对应的标签为yi,由此构建第二模态线性分离器损失函数:
Figure FDA0002396871210000052
Figure FDA0002396871210000053
式中,
Figure FDA0002396871210000054
为样本库集合中第二模态样本数据对应的哈希编码矩阵,k为哈希码的位数,W2为第二模态的线性分离器,μ为第二模态线性分离器的正则化参数;
第二损失函数构建单元,用于定义第一模态和第二模态的邻近区域相似性矩阵分别为
Figure FDA0002396871210000055
Figure FDA0002396871210000056
Figure FDA0002396871210000057
式中,Nm(p)为第一模态特征数据p的m近邻集合,Nm(q)为第二模态特征数据q的m近邻集合;
由此构建模态近邻约束损失函数:
Figure FDA0002396871210000058
Figure FDA0002396871210000059
式中,ν为模态近邻约束损失函数的约束平衡参数;
第三损失函数构建单元,用于利用矩阵运算将模态近邻约束损失函数转换为:
Figure FDA00023968712100000510
Figure FDA00023968712100000511
式中,tr(·)为矩阵的迹,
Figure FDA0002396871210000061
第四损失函数构建单元,用于利用映射矩阵F1、F2分别将第一模态和第二模态特征转换为对应的哈希编码矩阵:
B1=F1P_marry,B2=F2Q_marry
由此构建各个模态相互间的耦合语义一致性损失函数:
Figure FDA0002396871210000062
式中,λ、θ均为耦合语义一致性损失函数的平衡参数;
第五损失函数构建单元,用于结合上述损失函数,构建全局损失函数:
Figure FDA0002396871210000063
第一求取单元,用于求解所述全局损失函数,获取参数B1,B2,F1,F2,W1,W2的值;
第二求取单元,进一步用于求取符号函数sign(B1)和sign(B2),分别获得样本库集合中第一模态、第二模态对应的离散哈希编码矩阵。
10.根据权利要求9所述的基于监督语义耦合一致的跨模态哈希检索***,其特征在于,所述检索模块包括:
第三求取单元,用于求取待检索模态数据的哈希编码与各模态样本的哈希编码的汉明距离;
检索单元,用于将小于预设阈值的汉明距离对应的模态样本作为待检索模态数据的检索结果。
CN202010134513.7A 2020-03-02 2020-03-02 基于监督语义耦合一致的跨模态哈希检索方法及*** Active CN111368176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010134513.7A CN111368176B (zh) 2020-03-02 2020-03-02 基于监督语义耦合一致的跨模态哈希检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010134513.7A CN111368176B (zh) 2020-03-02 2020-03-02 基于监督语义耦合一致的跨模态哈希检索方法及***

Publications (2)

Publication Number Publication Date
CN111368176A true CN111368176A (zh) 2020-07-03
CN111368176B CN111368176B (zh) 2023-08-18

Family

ID=71211640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010134513.7A Active CN111368176B (zh) 2020-03-02 2020-03-02 基于监督语义耦合一致的跨模态哈希检索方法及***

Country Status (1)

Country Link
CN (1) CN111368176B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112948601A (zh) * 2021-02-02 2021-06-11 广东工业大学 一种基于受控语义嵌入的跨模态哈希检索方法
CN116649159A (zh) * 2023-08-01 2023-08-29 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的***和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112948601A (zh) * 2021-02-02 2021-06-11 广东工业大学 一种基于受控语义嵌入的跨模态哈希检索方法
CN112948601B (zh) * 2021-02-02 2023-05-30 广东工业大学 一种基于受控语义嵌入的跨模态哈希检索方法
CN116649159A (zh) * 2023-08-01 2023-08-29 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的***和方法
CN116649159B (zh) * 2023-08-01 2023-11-07 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的***和方法

Also Published As

Publication number Publication date
CN111368176B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
An et al. Fast and incremental loop closure detection with deep features and proximity graphs
CN111428073B (zh) 一种深度监督量化哈希的图像检索方法
Huang et al. Cost-effective vehicle type recognition in surveillance images with deep active learning and web data
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
CN111368176A (zh) 基于监督语义耦合一致的跨模态哈希检索方法及***
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
CN110489585B (zh) 基于监督学习的分布式图像搜索方法
CN113821670B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
Shen et al. Video retrieval with similarity-preserving deep temporal hashing
Altintakan et al. Towards effective image classification using class-specific codebooks and distinctive local features
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与***
CN115357728A (zh) 基于Transformer的大模型知识图谱表示方法
Song et al. A weighted topic model learned from local semantic space for automatic image annotation
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
Al-Jubouri Content-based image retrieval: Survey
Zhang et al. Training visual-semantic embedding network for boosting automatic image annotation
CN116257662A (zh) 基于k近邻图神经网络的异质图社区发现方法
Zou et al. Transductive zero-shot hashing for multilabel image retrieval
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
Fu et al. Robust representation learning for heterogeneous attributed networks
Wang et al. Block-based image matching for image retrieval
CN113254688A (zh) 一种基于深度哈希的商标检索方法
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant