CN115080769B - 基于双分支制衡互学习的图文检索方法、***及存储介质 - Google Patents

基于双分支制衡互学习的图文检索方法、***及存储介质 Download PDF

Info

Publication number
CN115080769B
CN115080769B CN202211002415.3A CN202211002415A CN115080769B CN 115080769 B CN115080769 B CN 115080769B CN 202211002415 A CN202211002415 A CN 202211002415A CN 115080769 B CN115080769 B CN 115080769B
Authority
CN
China
Prior art keywords
image
text
branch
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211002415.3A
Other languages
English (en)
Other versions
CN115080769A (zh
Inventor
许扬汶
刘天鹏
韩冬
孙腾中
刘灵娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Big Data Group Co ltd
Original Assignee
Nanjing Big Data Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Big Data Group Co ltd filed Critical Nanjing Big Data Group Co ltd
Priority to CN202211002415.3A priority Critical patent/CN115080769B/zh
Publication of CN115080769A publication Critical patent/CN115080769A/zh
Application granted granted Critical
Publication of CN115080769B publication Critical patent/CN115080769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双分支制衡互学习的图文检索方法及***,所述方法利用特征生成模型生成图像、文本的特征向量,特征生成模型包括互相指导学习的第一分支特征生成模型和第二分支特征生成模型,利用模态区分模型区分输入的模态,利用正反例组合损失函数和相似度正则极小化损失函数指导含有双分支的特征生成模型和模态区分模型参数的交替更新,用第一分支特征生成模型生成的特征进行相似度计算,相似度最高的为检索结果;本发明将图像、文本通过双分支的特征生成模型映射到公共空间,利用制衡互学习缩小图片和文本模态之间的异构差距,并通过对损失函数的优化,提高相似度运算准确度,拉大正反例之间的距离,从而更准确地得到检索结果。

Description

基于双分支制衡互学习的图文检索方法、***及存储介质
技术领域
本发明属于图文检索领域,具体涉及一种基于双分支制衡互学习的图文检索方法、***及存储介质。
背景技术
图文的跨模态检索可以帮助用户查询自己想要找到的图像,根据用户提供的一段描述性文字即可通过检索***找到满足要求的图像。图文检索是跨模态检索中较为基础的一个研究方向,但是由于“异构鸿沟”的存在,图像和文本的相似性无法直接度量。传统的图文相似度检索方法只是利用简单的线性关系将图像和文本映射到一个公共空间来度量相似性,导致相似性计算不满足实际复杂的情况,同时复杂的图像和文本相似度的计算带来了庞大的计算量。
制衡互学习是一种重要的模型互相学习方法,通过特征生成模型产生特征和区分模型判断生成特征是否满足特定要求的互相检查学习的过程,可以促进特征生成模型产生含有更多信息的特征,非常适用于跨模态任务。双塔模型是指将图像和文本数据分别映射到一个公共空间中,在公共空间计算相似度的模型技术,其希望可以通过将多模态数据非线性映射到公共空间来解决“鸿沟”的问题。但是传统的双塔模型很难学习到足够好的映射关系和公共空间,而且速度也达不到大批量数据处理的要求。同时,图像和文本模态内的不同类别的特征也没有得到充分的学习,导致模型无法区分不同内容的图像 (文本)。模型生成的特征数据通常也是高维浮点数据,在进行相似度运算时仍然会占用较多资源,花费较多时间。
发明内容
发明目的:本发明的目的是提供一种准确地实现跨模态相似度学习,进而精确实现图文检索的方法,本发明的第二目的是提供一种图文检索***。
技术方案:本发明所述的基于双分支制衡互学习的图文检索方法为:用户在图文检索模型中输入特定的图像或文本,检索得到相似度最高的文本或图像,所述图文检索模型的训练方法包括如下步骤:
(1)对图像和文本数据集进行预处理;
(2)预处理后的数据集经过特征生成模型生成图像特征和文本特征,生成特征生成模型的初始参数;所述特征生成模型包括第一分支特征生成模型和第二分支特征生成模型,互相指导学习;所述图像特征包括第一分支图像特征v和第二分支图像特征vs,所述文本特征包括第一分支文本特征t和第二分支文本特征ts
(3)将图像特征及文本特征输入到模态区分模型,生成模态区分模型的初始参数;
(4)交替更新所述特征生成模型和所述模态区分模型的参数;通过正反例组合损失函数拉近特征和正例的距离,推远特征和反例的距离,所述正反例组合损失函数Ltrip的公式为:
Figure GDA0003893168840000021
Figure GDA0003893168840000022
Ltrip=Ltrip,v+Ltrip,t
其中,Ltrip,v为图像的正反例组合损失函数,Ltrip,t为文本的正反例组合损失函数,ti为第i个第一分支文本特征,
Figure GDA0003893168840000023
Figure GDA0003893168840000024
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi为第i个第一分支图像特征;
Figure GDA0003893168840000025
Figure GDA0003893168840000026
分别表示文本的第j个图像正例和第k个图像反例的第二分支图像特征;α1和α2分别为图像和文本正例损失所占的比例,μ1和μ2调控整体损失的值;||·||sim为相似度计算公式:
Figure GDA0003893168840000027
其中||·||2为欧拉乘方距离函数;
(5)根据所述第一分支特征生成模型生成的文本和图像特征计算相似度,相似度最高的为图文检索的结果。
进一步地,步骤(4)中用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成,所述相似度正则极小化损失函数Lmin为:
Figure GDA0003893168840000028
Figure GDA0003893168840000029
Lmin=Lmin,v+Lmin,t
其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数。
进一步地,步骤(2)中,所述第二分支特征生成模型包括第二分支图像模型和第二分支文本模型,第二分支特征生成模型的参数更新方法为:
Figure GDA00038931688400000210
Figure GDA0003893168840000031
其中
Figure GDA0003893168840000032
是第二分支图像模型的参数,θv是第一分支图像模型的参数;
Figure GDA0003893168840000033
是第二分支文本模型的参数,θt是第一分支文本模型的参数;k控制相加的比例。
进一步地,所述模态区分模型的损失函数为:
Figure GDA0003893168840000034
其中,D(fi;θD)是输入特征为fi时模态区分模型的真实输出,yi是模态区分模型的期望输出,n表示特征数量。
进一步地,步骤(1)中,图像数据集的预处理方法包括对图像尺寸调整、图像翻转、图像比例缩放、图像裁剪、图像亮度色温饱和度调整,并将像素值转换到[0,1]的范围内。
进一步地,步骤(1)中,文本数据集的预处理方法为进行向量化处理,将文本中出现过的词语统计为一个序列,若一句文本中的核心词语出现在所述序列中,则文本向量中该核心词语的元素值为1,否则为0。
进一步地,步骤(4)中,将第一分支图像特征和第一分支文本特征通过Softmax 函数p转换为类别概率,由真实标签l指导,对图像和文本模态内部的不同特征进行区分,概率归一损失函数为:
Figure GDA0003893168840000035
本发明所述的基于双分支制衡互学习的图文检索***包括:
预处理模块,用于对图像、文本数据集进行预处理;
模型训练模块,用于交替更新特征生成模型和模态区分模型的参数,所述特征生成模型包括相互指导学习的第一分支特征生成模型和第二分支特征生成模型,所述模态区分模型用于区分输入的特征是属于图像还是文本;模型训练的损失函数包括正反例组合损失函数,Ltrip的公式为:
Figure GDA0003893168840000036
Figure GDA0003893168840000037
Ltrip=Ltrip,v+Ltrip,t
其中,Ltrip,v为图像的正反例组合损失函数,Ltrip,t为文本的正反例组合损失函数,ti为第i个第一分支文本特征,
Figure GDA0003893168840000041
Figure GDA0003893168840000042
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi为第i个第一分支图像特征;
Figure GDA0003893168840000043
Figure GDA0003893168840000044
分别表示文本的第j个图像正例和第k个图像反例的第二分支图像特征;α1和α2分别为图像和文本正例损失所占的比例,μ1和μ2调控整体损失的值;||·||sim为相似度计算公式:
Figure GDA0003893168840000045
进一步地,用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成,所述相似度正则极小化损失函数Lmin为:
Figure GDA0003893168840000046
Figure GDA0003893168840000047
Lmin=Lmin,v+Lmin,t
其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数,
Figure GDA0003893168840000048
Figure GDA0003893168840000049
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi表示第i个第一分支图像特征;
Figure GDA00038931688400000410
Figure GDA00038931688400000411
分别表示图像的第j个图像正例和第k个图像反例的第二分支图像特征,ti表示第i个第一分支文本特征。
有益效果:本发明与现有技术相比的优点在于:(1)利用制衡互学习缩小图片和文本不同模态之间的异构差距,可以更容易地进行相似度的比较;(2)在制衡互学习的同时,每一个模态拥有双分支的特征生成模型,两个分支之间互相指导和学习,生成信息更加丰富的特征,能够更加准确地计算相似度和实现分类效果;(3)通过优化正反例组合损失函数,直接计算正例和负例相似度的差值,同时利用分子的距离进行正则化,可以直接增大正例和负例的距离,提升检索的准确度;(4)利用相似度正则极小化损失函数来直接进一步指导特征的生成,更好的缩小相同语义的图像和文本特征的距离,使得图像和文本特征能够蕴含更加丰富的语义信息。
附图说明
图1为本发明的图文检索方法流程图。
图2为本发明的图文检索模型架构图。
图3为本实施例中进行图文检索的输入图像图。
图4为本发明实施例中的实验结果图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1和图2所示,本发明所述的基于双分支制衡互学习的图文检索方法,包括如下步骤:
(1)对图像和文本数据集进行预处理
数据集包括图像和文本。每个图像都需要经过5个数据增强手段和张量化,文本需要经过向量化。本实施例中,针对一组图像、文本数据说明数据预处理的方法,如图3 所示为本实施例中输入的打篮球图像。输入图像的大小为1280×960,先进行图像尺寸的调整。图像最长边为1280,所以将其调整到640到1920中的任意一个32倍数的长度,假设缩放到960,此时图像的大小已经调整为960×960;然后对图像进行翻转,假设从左右翻转和上下翻转中选择到了左右翻转,则图像沿着中轴进行左右侧的翻转;接着将图像的宽按照随机比例缩放,这里假设随机到的比例是0.9。那么图像的宽调整为960 ×0.9=864,图像的大小为960×864;最后将图像按照内容裁剪成640×640的大小,并调整图像的色温、亮度和饱和度为随机值。此时算上通道数,图片的大小为640×640 ×3。
根据增强后的图像,先转换图像的维度顺序,将通道数转到第一维,则转换后的图像大小为3×640×640。将图片中所有的像素值除以255,转换到0到1的范围内,完成图像的张量处理。
进一步的,输入图像对应的描述性文本是“一群运动员在篮球场上打篮球”,其中的关键性词汇是“运动员”,“篮球场”,“打篮球”。因为数据集中全部的关键词汇有很多,这里无法列举出所有的向量。假设总共的词汇只有6个,分别是“运动员”,“篮球场”,“打篮球”,“舞蹈演员”,“跳爵士舞”,“舞房”,那么所有文本对应的向量只有6位,该文本的向量中对应“运动员”,“篮球场”,“打篮球”位的值是1,其他值均为0。以上完成了文本的向量化。
(2)预处理后的数据集经过含有双分支的特征生成模型生成图像、文本的特征向量F,生成特征生成模型的初始参数。将图像特征和文本特征输入到模态区分模型,生成模态区分模型的初始参数。交替更新所述特征生成模型和所述模态区分模型的参数。
(2.1)特征生成模型包括第一分支特征生成模型和第二分支特征生成模型,将预处理后的训练数据集输入神经网络模型中,经过特征生成模型生成第一分支图像特征v、第一分支文本特征t、第二分支图像特征vs和第二分支文本特征ts;第二分支特征后续和第一分支特征互相指导学习。
(2.2)将第一分支图像特征v和第一分支文本特征t输入模态区分模型D中。模态区分模型D的目标就是尝试区分输入的特征是属于图像还是文本,输出是一个两位的向量y=[y0,y1]。在理想的情况下,对于第一分支图像特征v,模态区分模型的输出就是[1,0];反之是第一分支文本特征t,模型就输出[0,1]。模态区分模型损失函数Ladv为:
Figure GDA0003893168840000061
其中,||·||2为欧拉乘方距离函数,D(fi;θD)是输入特征为fi时模态区分模型的真实输出,yi是模态区分模型的期望输出,n表示特征数量。通常采用的交叉熵函数更侧重于从分布的角度指导特征学习,但是区分模型往往不需要严格的学习真值的分布,本发明的Ladv使用欧拉乘方距离能够更加直接的指导区分模型学习到和真值之间的差距,从而调整模型;同时前部加入的标签y可以进一步选择欧拉乘方距离的值进行指导,使得损失的计算更加精确。
(2.3)计算第一分支图像特征v和第一分支文本特征t的相似度公式为:
Figure GDA0003893168840000062
利用正反例组合损失函数将特征和正例的距离拉近,推远特征和反例的距离。损失函数如下:
Figure GDA0003893168840000063
Figure GDA0003893168840000064
Ltrip=Ltrip,v+Ltrip,t
为了尽可能的拉远正例和负例的距离,让模型能够生成充分表示正例和负例距离的特征,现有技术使用三元组损失函数,利用max函数调控增大正例和负例的距离。本发明直接计算正例和负例相似度的差值,利用分子的正负特征距离之和进行正则化,可以直接增大正例和负例的距离;同时分子的正负特征距离部分可以控制不同正例和负例组合的权重,不同正例和负例拉远的距离也是不同的。对于本实施例中的打篮球图像,
Figure GDA0003893168840000065
就是“一群运动员在篮球场上打篮球”,
Figure GDA0003893168840000066
就是“一位舞蹈演员在舞房跳爵士舞”。
(2.4)将特征生成模型生成的特征F(包括图像和文本)使用相似度正则极小化损失函数进行指导,更好的缩小相同语义的图像和文本特征的距离,损失函数Lmin为:
Figure GDA0003893168840000067
Figure GDA0003893168840000071
Lmin=Lmin,v+Lmin,t
(2.5)对于学习模态内的类别可区分性,第一分支图像特征v和第一分支文本特征t通过Softmax函数p转换为类别概率。定义概率归一损失函数Llabel
Figure GDA0003893168840000072
通常采用的交叉熵函数过于单一,本发明的Llabel综合考虑真值l和生成特征,利用两者的均值可以更好的描述两者分布的不同,并且防止生成特征过于拟合于真值,从而给出更加准确的分布差距。
(2.6)总的损失函数可以分为特征生成损失函数Lgen和模态区分损失函数Ladv,特征生成损失函数定义为正反例组合损失函数、相似度正则极小化损失函数和概率归一损失函数之和:
Figure GDA0003893168840000073
整体模型需要优化的损失L为Lgen和Ladv之差:
Figure GDA0003893168840000081
(2.7)第一分支特征生成模型的参数更新为正常的梯度回传,第二分支特征生成模型的参数更新方法为:
Figure GDA0003893168840000082
Figure GDA0003893168840000083
其中k控制相加的比例,本实施例中取0.8。
(2.8)在训练过程中,交替循环地更新特征生成模型网络和模态区分模型网络。先利用损失函数L优化特征生成模型的网络参数,然后根据新的特征生成模型输出的特征得到的损失函数-L优化模态区分模型的网络参数,重复交错迭代多轮。
(3)根据第一分支图像特征v和第一分支文本特征t计算相似度,相似度最高的为图文检索的结果。
将预处理后的测试数据集作为已训练模型的输入,只使用第一分支图像特征v和第一分支文本特征t进行相似度运算,相似度函数同样使用相似度计算||·||sim。相似度得分最高的图像和文本组就是匹配的相应内容。本实施例中图像与文本“一群运动员在篮球场上打篮球”的相似度值是0.91,与文本“一位舞蹈演员在舞房跳爵士舞”的相似度值是0.26,因此“一群运动员在篮球场上打篮球”和图像的匹配程度更高。
(4)用户输入特定的图像或文本,遵循预测过程,就可以检索出相似度最高的文本或图像结果。用户输入打篮球的照片,根据上述计算的相似度结果,检索结果就是文本“一群运动员在篮球场上打篮球”。同理,用户输入该文本,得到的也一定是打篮球的照片。
通过实验验证本发明的方法,实验使用的测试数据集是Pascal Sentencedataset,是常用的跨模态检索数据集之一。使用的评估指标是平均精度均值(mAP),即所有测试样本的精确度(AP)的均值。对于一个测试样本的前K个检索结果,其精确度AP@K表示如下:
Figure GDA0003893168840000091
其中N表示前K个检索结果中正确项的总数,nV表示第V个检索结果如果是正确的,则为1,否则为0。
实验的对比方法分别为CCA、LCFS、Corr-AE、DCCA、Deep-SM、MHTN和ACMR,这些方法都是常用的跨模态检索方法。所有方法和本方法在mAP@50评估指标下的结果如图4所示,从图4中可以看到,本方法明显超过我们的对比方法,比所有对比方法的评估结果均高出15%以上,充分证明了检索的高准确度。

Claims (9)

1.一种基于双分支制衡互学习的图文检索方法,其特征在于,用户在图文检索模型中输入特定的图像或文本,检索得到相似度最高的文本或图像,所述图文检索模型的训练方法包括如下步骤:
(1)对图像和文本数据集进行预处理;
(2)预处理后的数据集经过特征生成模型生成图像特征和文本特征,生成特征生成模型的初始参数;所述特征生成模型包括第一分支特征生成模型和第二分支特征生成模型,互相指导学习;所述图像特征包括第一分支图像特征v和第二分支图像特征vs,所述文本特征包括第一分支文本特征t和第二分支文本特征ts
(3)将图像特征及文本特征输入到模态区分模型,生成模态区分模型的初始参数;所述模态区分模型的损失函数为:
Figure FDA0003893168830000011
其中,D(fi;θD)是输入特征为fi时模态区分模型的真实输出,yi是模态区分模型的期望输出,n表示特征数量;
(4)交替更新所述特征生成模型和所述模态区分模型的参数,方法为:先利用图文检索模型训练的损失函数更新所述特征生成模型的网络参数,根据优化后的所述特征生成模型输出的特征得到图文检索模型训练的损失函数,然后更新所述模态区分模型的网络参数,依此方法迭代更新;其中,所述损失函数中包括正反例组合损失函数,所述正反例组合损失函数拉近特征和正例的距离,推远特征和反例的距离,所述正反例组合损失函数Ltrip的公式为:
Figure FDA0003893168830000012
Figure FDA0003893168830000013
Ltrip=Ltrip,v+Ltrip,t
其中,Ltrip,v为图像的正反例组合损失函数,Ltrip,t为文本的正反例组合损失函数,ti为第i个第一分支文本特征,
Figure FDA0003893168830000014
Figure FDA0003893168830000015
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi为第i个第一分支图像特征;
Figure FDA0003893168830000016
Figure FDA0003893168830000017
分别表示文本的第j个图像正例和第k个图像反例的第二分支图像特征;α1和α2分别为图像和文本正例损失所占的比例,μ1和μ2调控整体损失的值;||·||sim为相似度计算公式:
Figure FDA0003893168830000021
其中||·||2为欧拉乘方距离函数;
(5)根据所述第一分支特征生成模型生成的文本和图像特征计算相似度,相似度最高的为图文检索的结果。
2.根据权利要求1所述的基于双分支制衡互学习的图文检索方法,其特征在于,步骤(4)中用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成,所述相似度正则极小化损失函数Lmin为:
Figure FDA0003893168830000022
Figure FDA0003893168830000023
Lmin=Lmin,v+Lmin,t
其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数。
3.根据权利要求1所述的基于双分支制衡互学习的图文检索方法,其特征在于,步骤(2)中,所述第二分支特征生成模型包括第二分支图像模型和第二分支文本模型,第二分支特征生成模型的参数更新方法为:
Figure FDA0003893168830000024
Figure FDA0003893168830000025
其中
Figure FDA0003893168830000026
是第二分支图像模型的参数,θv是第一分支图像模型的参数;
Figure FDA0003893168830000027
是第二分支文本模型的参数,θt是第一分支文本模型的参数;k控制相加的比例。
4.根据权利要求1所述的基于双分支制衡互学习的图文检索方法,其特征在于,步骤(1)中,图像数据集的预处理方法包括对图像尺寸调整、图像翻转、图像比例缩放、图像裁剪和图像亮度色温饱和度调整,并将像素值转换到[0,1]的范围内。
5.根据权利要求1所述的基于双分支制衡互学习的图文检索方法,其特征在于,步骤(1)中,文本数据集的预处理方法包括进行向量化处理,将文本中出现过的词语统计为一个序列,若一句文本中的核心词语出现在所述序列中,则文本向量中该核心词语的元素值为1,否则为0。
6.根据权利要求1所述的基于双分支制衡互学习的图文检索方法,其特征在于,步骤(4)中,将第一分支图像特征和第一分支文本特征通过Softmax函数p转换为类别概率,由真实标签l指导,对图像和文本内部的不同特征进行区分,概率归一损失函数为:
Figure FDA0003893168830000031
7.一种基于双分支制衡互学习的图文检索***,其特征在于,包括:
预处理模块,用于对图像、文本数据集进行预处理;
模型训练模块,包括图文检索模型,用于交替更新特征生成模型和模态区分模型的参数,先利用图文检索模型训练的损失函数更新所述特征生成模型的网络参数,根据优化后的所述特征生成模型输出的特征得到图文检索模型训练的损失函数,然后更新所述模态区分模型的网络参数,进行迭代更新;所述特征生成模型包括相互指导学习的第一分支特征生成模型和第二分支特征生成模型,所述模态区分模型用于区分输入的特征是属于图像还是文本,所述模态区分模型的损失函数为:
Figure FDA0003893168830000032
其中,D(fi;θD)是输入特征为fi时模态区分模型的真实输出,yi是模态区分模型的期望输出,n表示特征数量;
所述模型训练的损失函数包括正反例组合损失函数,Ltrip的公式为:
Figure FDA0003893168830000033
Figure FDA0003893168830000034
Ltrip=Ltrip,v+Ltrip,t
其中,Ltrip,v为图像的正反例组合损失函数,Ltrip,t为文本的正反例组合损失函数,ti为第i个第一分支文本特征,
Figure FDA0003893168830000035
Figure FDA0003893168830000036
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi为第i个第一分支图像特征;
Figure FDA0003893168830000037
Figure FDA0003893168830000038
分别表示文本的第j个图像正例和第k个图像反例的第二分支图像特征;α1和α2分别为图像和文本正例损失所占的比例,μ1和μ2调控整体损失的值;||·||sim为相似度计算公式:
Figure FDA0003893168830000039
其中||·||2为欧拉乘方距离函数;
图文检索模块,用于根据所述第一分支特征生成模型生成的文本和图像特征计算相似度,相似度最高的为图文检索的结果。
8.根据权利要求7所述的基于双分支制衡互学习的图文检索***,其特征在于,用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成,所述相似度正则极小化损失函数Lmin为:
Figure FDA0003893168830000041
Figure FDA0003893168830000042
Lmin=Lmin,v+Lmin,t
其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数,
Figure FDA0003893168830000043
Figure FDA0003893168830000044
分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征,vi表示第i个第一分支图像特征;
Figure FDA0003893168830000045
Figure FDA0003893168830000046
分别表示图像的第j个图像正例和第k个图像反例的第二分支图像特征,ti表示第i个第一分支文本特征。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~6任一项所述的基于双分支制衡互学习的图文检索方法。
CN202211002415.3A 2022-08-22 2022-08-22 基于双分支制衡互学习的图文检索方法、***及存储介质 Active CN115080769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211002415.3A CN115080769B (zh) 2022-08-22 2022-08-22 基于双分支制衡互学习的图文检索方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211002415.3A CN115080769B (zh) 2022-08-22 2022-08-22 基于双分支制衡互学习的图文检索方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN115080769A CN115080769A (zh) 2022-09-20
CN115080769B true CN115080769B (zh) 2022-12-02

Family

ID=83244044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211002415.3A Active CN115080769B (zh) 2022-08-22 2022-08-22 基于双分支制衡互学习的图文检索方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN115080769B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115712740B (zh) * 2023-01-10 2023-06-06 苏州大学 多模态蕴含增强图像文本检索的方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和***
CN113010700A (zh) * 2021-03-01 2021-06-22 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和***
CN113010700A (zh) * 2021-03-01 2021-06-22 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法

Also Published As

Publication number Publication date
CN115080769A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Wang et al. M3: Multimodal memory modelling for video captioning
He et al. Local descriptors optimized for average precision
CN112328767B (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN106203483B (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
Du et al. Semi-siamese training for shallow face learning
CN111259768A (zh) 基于注意力机制的结合自然语言的图像目标定位方法
CN111444342A (zh) 一种基于多重弱监督集成的短文本分类方法
CN115080769B (zh) 基于双分支制衡互学习的图文检索方法、***及存储介质
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN113297369A (zh) 基于知识图谱子图检索的智能问答***
CN113887538A (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN116610831A (zh) 语义细分及模态对齐推理学习跨模态检索方法及检索***
CN110197213B (zh) 基于神经网络的图像匹配方法、装置和设备
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及***
CN117236330B (zh) 一种基于互信息和对抗神经网络的增强主题多样性方法
CN114462466A (zh) 一种面向深度学习的数据去偏方法
CN116310585A (zh) 一种多标记分类模型构建方法、分类方法、分类装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant