CN116775922A - 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 - Google Patents

基于语言与视觉细节特征融合的遥感图像跨模态检索方法 Download PDF

Info

Publication number
CN116775922A
CN116775922A CN202310550653.6A CN202310550653A CN116775922A CN 116775922 A CN116775922 A CN 116775922A CN 202310550653 A CN202310550653 A CN 202310550653A CN 116775922 A CN116775922 A CN 116775922A
Authority
CN
China
Prior art keywords
image
text
encoder
remote sensing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310550653.6A
Other languages
English (en)
Inventor
何柳
刘姝妍
安然
卓雨东
陶剑
李润岐
王孝天
武铎
孙郁文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aero Polytechnology Establishment
Original Assignee
China Aero Polytechnology Establishment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aero Polytechnology Establishment filed Critical China Aero Polytechnology Establishment
Priority to CN202310550653.6A priority Critical patent/CN116775922A/zh
Publication of CN116775922A publication Critical patent/CN116775922A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其包括以下步骤,步骤1:处理遥感图文检索模型的训练数据;步骤2:构建多细节语言与视觉融合模型;步骤3:训练多目标优化的细节语言与视觉融合模型;步骤4:构建遥感图像‑文本描述特征库;步骤5:完成遥感图像‑文本描述的跨模态检索。本发明利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达,通过语义特征的相似性计算完成跨模态检索;通过给模型设计多目标的优化策略,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力。

Description

基于语言与视觉细节特征融合的遥感图像跨模态检索方法
技术领域
本申请涉及图像处理技术领域,具体地涉及一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法。
背景技术
近年来,遥感卫星和无人机科技发展迅速,遥感技术作为其核心,在地理定位、灾难救援、军事侦察、灾害监测等领域的应用取得了显著效果。随着遥感技术的广泛应用,遥感图像呈现***式增长,给大规模遥感图像识别、检测、分类和检索等多个任务带来了极大的困难。其中,遥感图像跨模态检索任务指的是根据给出的自然语言描述,在大规模遥感图像数据集中找到与它内容相同或相似的遥感图像,反之亦然。相较于传统的遥感图像检索,图文跨模态检索呈现出更好的人机交互特性,具有更强的应用价值。
在遥感图像跨模态检索应用场景中,用户的一个重点需求是输入一段对场景的描述,在庞大的遥感图像库中检索出与输入描述一致或相似的图像。在此过程中,查询数据和数据库存储的数据具有不同的模态类型,不同模态之间的特征表达往往存在巨大表示鸿沟,需要将不同模态具有相同语义的样本之间建立联系。现阶段面向遥感图像的跨模态检索方法主要分为基于图像标签检索的方法和图文特征向量检索的方法。基于图像标签检索的方法主要是对每个图像进行关键词描述,作为图像的特征标签。在检索过程中,将用户输入的描述拆解为关键词,与图像的关键词标签进行匹配,找到相似的目标图像。而图文特征向量检索的方法是利用训练好的图像文本编码器,将具有相同或相似语义的图文编码为具有更近距离的特征向量,反之亦然。当前的两种检索方式均有不同程度的缺陷,主要体现在以下几个方面:
1、基于图像标签检索的方法依赖对现有的图像数据进行高质量的标签描述,需要花费大量的时间,在大规模数据检索过程中不适用;
2、基于图文特征向量的检索方法需要对图像内容和文本描述进行特征对齐,由于图像和文本的数据结构差异,导致对两种类型数据的特征提取、对齐、融合的过程非常困难;
3、当前的图像特征编码器往往依赖一个高质量的遥感图像目标识别模型来对图像的细节进行表示,此模型的精确度对于整体的检索效果有很大影响,并且训练此目标识别模型也需要花费更多的途径。
为解决上述提到的问题,本发明提出了基于语言-视觉细节特征融合的遥感图像跨模态检索方法,通过设计一个包含视觉和语言两个单模态编码器和一个多模态编码器的遥感图像跨模态检索框架,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合学习,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达能力,通过语义特征的相似性计算来完成跨模态检索任务。本发明为了能表达图像的细节特征,通过设计一个浅层视觉transformer模型来提取图像的局部特征,将流水线式的“目标检测+检索”过程转变为端到端的训练过程;这个端到端的框架弥补了目标检测器和检索模型训练过程之间的差距,降低整个检索模型的训练开销;本发明通过给模型设计一套多目标的优化策略,在此策略下对整体模型进行训练,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力;训练结果收敛的模型完成端到端的、不需要图像标签的文本-图像检索任务。
发明内容
为了克服现有技术的不足,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达,通过语义特征的相似性计算完成跨模态检索;通过给模型设计多目标的优化策略,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力。
为实现上述目的,本发明所采用的解决方案为提供一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其包括以下步骤:
步骤1:处理遥感图文检索模型的训练数据;
所述遥感图文检索模型的训练数据是基于图像数据和文本数据构成,所述图像数据为实测图像,所述文本数据为遥感图像对应的描述信息;首先,获取文本数据中的单词个数lenwords和停用词个数lenstops;删除所有满足lenwords=lenstops以及lenwords=lenstops+1的图像-文本数据对,避免图像-文本数据对中的停用词干扰检索模型训练的效果;然后,处理图像数据及对应的文本数据;最后,将清洗后的遥感图文检索训练数据用于训练图像局部编码器和全局编码器;
步骤2:构建多细节语言与视觉融合模型;
基于图像-文本特征的跨模态检索主要是分别对图像数据和文本数据的特征提取和表达,通过优化各个提取器的表达能力,将具备语义相似性的图像数据和文本数据的特征表示在向量空间中距离最小;基于多细节语言与视觉融合模型的整体架构包括:遥感图像视觉编码器Fenc-V,遥感图像描述语言特征编码器Fenc-L和基于视觉-语言融合模型的多模态编码器Fenc-Mul,如下所示:
式中:I表示输入的遥感图像数据;T表示输入的文本数据;fIL表示遥感图像的局部特征;fIGL表示遥感图像的局部-全局融合特征;fT表示遥感图像描述文本特征;Sdistance表示特征向量间的距离相似性;Spairwise表示图像-文本对的匹配概率值;Fenc-V表示遥感图像视觉编码器;Fenc-L表示遥感图像描述语言特征编码器;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器;
步骤3:训练多目标优化的细节语言与视觉融合模型;
构建包含四个损失函数的多目标综合监督优化方法,在中间分支引入深层监督策略;完成模型训练过程,所述训练过程主要针对图像编码器、文本编码器以及多模态编码器进行优化;将经过步骤1处理后的图像数据和文本数据按照第一比例值的方式划分为训练集、验证集以及测试集,并将划分后的训练集送入到步骤2构建的模型中,模型参数采用正态分布进行初始化,不使用预训练参数;在计算图像-文本匹配损失时冻结图像编码器部分,专注于优化多模态编码器;
步骤4:构建遥感图像-文本描述特征库;
步骤41:在检索任务中,用召回率表示检索算法在返回的N个候选样本中正确样本的比例;首先用Ri2t表示图像到文本的检索召回率以及Rt2i表示文本到图像的检索召回率;然后计算在验证集上检索两个任务的top1,top5,top10的图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N;最后计算图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值mRi2t@N和mRi2t@N,并保存召回率最高的模型用于后续的检索任务中,具体计算公式如下所示:
式中:mRi2t@N和mRt2i@N分别表示图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值;Imagek表示第k个具有相似语义的图像-文本对;Textk表示第k个具有相似语义的文本-图像对;Ri2t@N(Imagek)表示输入图像Imagek;Rt2i@N(Textk)表示输入文本Textk;k表示图像与文本对编号;m表示图像与文本对总数;N表示检索任务编号;
步骤42:构建图像特征数据库,利用步骤3中训练好的图像编码器对所有图像数据进行特征提取,并将生成的图像特征存储在数据库中以提高后续应用时的检索效率;
步骤43:构建文本特征数据库,利用步骤3中训练好的文本编码器对所有文本数据进行特征提取,并将生成的文本特征存储在数据库中;
步骤5:完成遥感图像-文本描述的跨模态检索;
所述跨模态检索包含四大主要模块:图像编码模块、文本编码模块、相似性判断召回模块以及多模态重排序模块;其中,图像编码模块与文本编码模块并联,随后级联相似性判断召回模块以及多模态重排序模块;通过以上四个模块完成遥感图像-文本描述的跨模态检索。
可优选的是,所述步骤1中的处理图像数据及对应的文本数据,具体为;
所述图像数据的处理过程如下:
步骤111:将所有图像数据统一调整为278x278x3的尺寸;
步骤112:对输入图像数据按照50%的概率进行基础数据增强,包括随机旋转、随机翻转以增强模型的泛化能力;
步骤113:对输入图像数据进行数据量的扩充,采用图像数据拼接方法,根据类别标签,在同一个类别内部,随机选取两张图像I_a和I_b并进行像素级别的叠加,对于文本部分,直接进行文本描述的拼接,将T_b直接拼接在T_a的后面;
步骤114:对经过步骤112和步骤113后的图像数据进行随机裁剪,裁剪区域大小为256x256x3以适应后续神经网络模型的输入;
步骤115:对经过步骤114后的图像数据进行归一化处理,以将图像灰度范围变换至0-1之间;
所述文本数据的处理过程如下:
步骤121:对于文本数据进行去停用词处理,同时设置最大单词长度为64,对文本数据进行截断,丢弃超出最大单词长度的部分;
步骤122:构建“随机掩码”结合“定向掩码”策略,如下所示:
步骤1221:构建布尔类型的文本数据掩码描述符S_T,长度与处理后的文本数据中的单词长度一致,以False进行初始化,默认不进行任何掩码操作;
步骤1222:按照伯努利分布随机选中S_T中15%的位置并以True进行标记;
步骤1223:记录所有图像的类别标签imgs_cls,遍历文本数据,将包含imgs_cls的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的类别信息;
步骤1224:构建数量信息描述符S_N,存储0-10内的英文数字单词,遍历文本数据,将包含S_N的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的数量信息;
步骤1225:对于所有S_T中以True标记的位置,按照80%的概率对文本数据单词进行[MASK]空白替换;按照10%的概率进行随机单词的替换,将原有单词替换成随机的任意其余单词;其余10%位置的单词不进行替换。
可优选的是,所述步骤2中的遥感图像视觉编码器,具体为:
在遥感图像-文本跨模态检索任务中,图像数据中包含的语义信息的信息量和复杂程度要远高于其对应的文本数据,因此在视觉编码器Fenc-V中设计提取图像全局特征的模块Mcnn-mvsa和提取局部特征的模块Mvit,同时设计融合全局特征和局部特征的模块Mmidf,具体如下所示:
式中:fIG表示遥感图像的全局特征;Mcnn-mvsa表示遥感图像全局特征提取模块;Mvit表示遥感图像的局部特征提取模块;Mmidf表示融合全局特征和局部特征的模块;
所述遥感图像的全局特征提取模块Mcnn-mvsa是由一个ResNet-50残差卷积神经网络作为特征提取器,利用多尺度自注意力模型来优化特征提取的效果,将步骤1中的经过清洗和增强后的整幅图像输入到Mcnn-mvsa中,得到fIG
所述遥感图像的局部特征提取模块Mvit是由一个6层的Vision Transformer模型作为特征提取器,将步骤1中序列化后图像数据输入到Mvit中进行特征提取,得到fIL
所述全局特征和局部特征的融合模块Mmidf是一个线性函数,通过将特征fIG和fIL进行线性加和,在训练过程中得到的第一融合参数a和第二融合参数b,如下所示:
Mmidf(fIG,fIL)=afIG+bfIL
式中:Mmidf表示全局特征和局部特征的融合模块;a表示第一融合参数;b表示第二融合参数。
可优选的是,所述步骤2中的遥感图像描述语言特征编码器,具体为:
所述遥感图像描述语言特征编码器Fenc-L包括一个基于Bert的文本编码器Mbert,如下所示:
fT=Mbert(T);
式中:Mbert表示标准的Bert模型;
在训练过程中Mbert会根据标注数据调整模型的特征表达特性,增强模型对于特征的表达能力,将通过步骤1中遮掩的文本数据作为训练数据,输入模型Mbert中;在模型训练完成进入应用阶段Mbert将用户输入文本数据表达为具备语义的特征向量。
可优选的是,所述步骤2中的基于视觉-语言融合模型的多模态编码器,具体为:
基于视觉-语言融合模型的多模态编码器Fenc-Mul包含两个模块,分别为计算跨模态向量距离的Mcms和用于视觉-语言融合的Mvlf,如下所示:
Fenc-Mul={Mcms,Mvlf};
式中:Mcms表示模块用于计算图像特征向量和文本特征向量的距离相似性,使用cosine距离来衡量;Mvlf表示用于视觉-语言融合;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器;
Mvlf模块使用基于bert的模型的最后6层进行初始化,并使用额外的交叉注意力层对视觉-语言交互进行建模。
可优选的是,所述步骤3中构建包含四个损失函数的多目标综合监督优化方法,具体为:
步骤31:三元组损失用于学习图像特征和文本特征的表示空间,通过对比三个比较样本特征之间的距离计算损失;在文本特征编码器和图像特征编码器之间构建第一三元组损失函数Litt1;图像局部编码器编码的特征包含了更多的图像细节,这些细节对于最终的图像表达以及后续多模态编码器的训练至关重要,在文本特征编码器和图像局部特征编码器之间构建第二三元组损失函数Litt2用于深监督,如下所示:
式中:Litt1表示第一三元组损失函数;ε表示用于扩大基准样本和正/负样本对之间的差距的最小边距;Sim表示相似性召回模块;(I,T)表示匹配的图像-文本对特征,分别由图像编码器和文本编码器生成;T^表示未与图像I匹配的文本特征;I^表示未与文本T匹配的图像特征;Litt2表示第二三元组损失函数;Iloc表示图像局部编码器生成,式子右下角的+含义是[]内的值大于0的时候,取该值为损失,小于0的时候,损失为0;
步骤32:在多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数Litm,通过连接一层全连接二分类层实现对于一对输入图像和文本是否匹配的预测;在进行正/负样本的选择时,利用相似性召回模块计算单个批次内最接近于正样本的困难样本作为负样本以增强多模态模块的学习能力,损失计算形式如下所示:
Litm=-yitmlog(pitm(I,T))+(1-yitm)log(1-pitm(I,T));
式中:Litm表示多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数;yitm表示构建出的图像-文本对的匹配标签;pitm(I,T)表示图像-文本的匹配概率;
步骤33:在多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数Lmlm,掩码处理后的文本用T^表示,模型预测概率用pmsk(I,T^)表示,如下所示:
Lmlm=-ymsklog(pmsk(I,T^))+(1-ymsk)log(1-pmsk(I,T^));
式中:Lmlm表示多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数;ymsk表示图像-文本对的预测概率;pmsk表示模型预测概率;
步骤34:上述四个损失函数的组合策略会影响模型的最终表达效果,需要分配合适的权重系数用于多目标的共同优化,避免单个任务在联合学***衡权重的影响,如下所示:
式中:θt表示经过上述公式计算出的任务t的权重;Li(t)表示任务t在当前小批次迭代过程中计算出的损失值;L0(t)表示任务t在初始迭代过程中的损失值;λ表示用于平衡每个任务的权重,以0.5设置;i表示每轮训练过程的编号。
可优选的是,所述步骤41中图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N,具体为:
所述图像至文本召回率如下所示:
式中:trext1,text2…textN分别表示检索算法返回的第1个、第2个到第N个候选文本样本集合;
所述文本至图像召回率如下所示:
式中:image1,image2...imageN分别表示检索算法返回的第1个、第2个到第N个候选图像样本集合。
可优选的是,所述步骤5中的遥感图像-文本描述的跨模态检索包括以文搜图过程和以图搜文过程,具体为:
所述以文搜图过程为:当输入一段文本描述,构建完成的跨模态检索模型首先利用文本编码模块计算输入文本的特征,随后在步骤4中构建的图像特征数据库中利用相似性判断召回模块计算每个图像特征与文本特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回图像与输入文本之间的匹配概率,从而实现对于初步检索结果的微调;
所述以图搜文过程为:当输入一张图像,构建完成的跨模态检索模型首先利用图像编码模块计算输入图像的特征,随后在步骤4中构建的文本特征数据库中利用相似性判断召回模块计算每个文本特征与图像特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回文本与输入图像之间的匹配概率,从而实现对于初步检索结果的微调。
与现有技术相比,本发明的有益效果在于:
(1)本发明通过设计一个包含视觉和语言两个单模态编码器和一个多模态编码器的遥感图像跨模态检索框架,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合学习,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达能力,通过语义特征的相似性计算来完成跨模态检索任务;
(2)本发明为了能表达图像的细节特征,并且消除掉预训练的目标识别模型带来的训练开销,通过设计一个浅层视觉transformer模型来提取图像的局部特征,将流水线式的“目标检测+检索”过程转变为端到端的训练过程;这个端到端的框架弥补了目标检测器和检索模型训练过程之间的差距,降低整个检索模型的训练开销;
(3)本发明通过给模型设计一套多目标的优化策略,在此策略下对整体模型进行训练,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力;训练结果收敛的模型完成端到端的、不需要图像标签的文本-图像检索任务。
附图说明
图1为本发明实施例基于语言与视觉细节特征融合的遥感图像跨模态检索方法的控制框图;
图2为本发明实施例的模型训练过程图;
图3为本发明实施例的跨模态检索过程图;
图4为本发明实施例以文搜图过程图;
图5为本发明实施例以图搜文过程图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例以某图片为按案例进行分析,在视觉编码器的设计中,引入了一个用多模态编码器训练的视觉transformer模块来实现目标检测的能力,将流水线式的训练过程转变为端到端的训练过程,大大减小了需要的训练数据量和训练时间,降低了构建模型的便捷性和准确性。在模型训练过程中,通过多模态融合学习以及优化多目标任务,使得模型具备处理多细节任务的能力,与其他相关的方法相比,获得较好的检索性能。优化了整个检索流程,在召回任务完成后,引入基于语言与视觉融合模型的重排序模型,在较小的计算消耗下能够对召回结果进行进一步优化,能够提高top-1和top-5排序性能。如图1所示为本发明实施例基于语言与视觉细节特征融合的遥感图像跨模态检索方法的控制框图。
本发明实施例提供了一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,如图2所示为本发明实施例的模型训练过程图;为了说明本发明的适用性,将其应用于实例,具体包含如下步骤:
S1:处理遥感图文检索模型的训练数据。
遥感图文检索模型的训练数据是基于图像数据和文本数据构成,图像数据为实测图像,文本数据为遥感图像对应的描述信息。
图像数据的处理过程如下:
S111:将所有图像数据统一调整为278x278x3的尺寸。
S112:对输入图像数据按照50%的概率进行基础数据增强,包括随机旋转、随机翻转以增强模型的泛化能力。
S113:对输入图像数据进行数据量的扩充,采用图像数据拼接方法,根据类别标签,在同一个类别内部,随机选取两张图像I_a和I_b并进行像素级别的叠加,对于文本部分,直接进行文本描述的拼接,将T_b直接拼接在T_a的后面。
S114:对经过S112和S113后的图像数据进行随机裁剪,裁剪区域大小为256x256x3以适应后续神经网络模型的输入。
S115:对经过S114后的图像数据进行归一化处理,以将图像灰度范围变换至0-1之间;
文本数据的处理过程如下:
S121:对于文本数据进行去停用词处理,同时设置最大单词长度为64,对文本数据进行截断,丢弃超出最大单词长度的部分。
S122:构建“随机掩码”结合“定向掩码”策略,如下所示:
S1221:构建布尔类型的文本数据掩码描述符S_T,长度与处理后的文本数据中的单词长度一致,以False进行初始化,默认不进行任何掩码操作。
S1222:按照伯努利分布随机选中S_T中15%的位置并以True进行标记。
S1223:记录所有图像的类别标签imgs_cls,遍历文本数据,将包含imgs_cls的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的类别信息。
S1224:构建数量信息描述符S_N,存储0-10内的英文数字单词,遍历文本数据,将包含S_N的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的数量信息。
S1225:对于所有S_T中以True标记的位置,按照80%的概率对文本数据单词进行[MASK]空白替换;按照10%的概率进行随机单词的替换,将原有单词替换成随机的任意其余单词;其余10%位置的单词不进行替换。
首先,获取文本数据中的单词个数lenwords和停用词个数lenstops;删除所有满足lenwords=lenstops以及lenwords=lenstops+1的图像-文本数据对,避免图像-文本数据对中的停用词干扰检索模型训练的效果;然后,处理图像数据及对应的文本数据;最后,将清洗后的遥感图文检索训练数据用于训练图像局部编码器和全局编码器。
S2:构建多细节语言与视觉融合模型。
基于图像-文本特征的跨模态检索主要是分别对图像数据和文本数据的特征提取和表达,通过优化各个提取器的表达能力,将具备语义相似性的图像数据和文本数据的特征表示在向量空间中距离最小,如图3所示为本发明实施例的跨模态检索过程图;基于多细节语言与视觉融合模型的整体架构包括:遥感图像视觉编码器Fenc-V,遥感图像描述语言特征编码器Fenc-L和基于视觉-语言融合模型的多模态编码器Fenc-Mul,如下所示:
式中:I表示输入的遥感图像数据;T表示输入的文本数据;fIL表示遥感图像的局部特征;fIGL表示遥感图像的局部-全局融合特征;fT表示遥感图像描述文本特征;Sdistance表示特征向量间的距离相似性;Spairwise表示图像-文本对的匹配概率值;Fenc-V表示遥感图像视觉编码器;Fenc-L表示遥感图像描述语言特征编码器;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器。
在遥感图像-文本跨模态检索任务中,图像数据中包含的语义信息的信息量和复杂程度要远高于其对应的文本数据,因此在视觉编码器Fenc-V中设计提取图像全局特征的模块Mcnn-mvsa和提取局部特征的模块Mvit,同时设计融合全局特征和局部特征的模块Mmidf,具体如下所示:
式中:fIG表示遥感图像的全局特征;Mcnn-mvsa表示遥感图像全局特征提取模块;Mvit表示遥感图像的局部特征提取模块;Mmidf表示融合全局特征和局部特征的模块。
遥感图像的全局特征提取模块Mcnn-mvsa是由一个ResNet-50残差卷积神经网络作为特征提取器,利用多尺度自注意力模型来优化特征提取的效果,将S1中的经过清洗和增强后的整幅图像输入到Mcnn-mvsa中,得到fIG
遥感图像的局部特征提取模块Mvit是由一个6层的Vision Transformer模型作为特征提取器,将S1中序列化后图像数据输入到Mvit中进行特征提取,得到fIL
全局特征和局部特征的融合模块Mmidf是一个线性函数,通过将特征fIG和fIL进行线性加和,在训练过程中得到的第一融合参数a和第二融合参数b,如下所示:
Mmidf(fIG,fIL)=afIG+bfIL
式中:Mmidf表示全局特征和局部特征的融合模块;a表示第一融合参数;b表示第二融合参数。
遥感图像描述语言特征编码器Fenc-L包括一个基于Bert的文本编码器Mbert,如下所示:
fT=Mbert(T);
式中:Mbert表示标准的Bert模型。
在训练过程中Mbert会根据标注数据调整模型的特征表达特性,增强模型对于特征的表达能力,将通过S1中遮掩的文本数据作为训练数据,输入模型Mbert中;在模型训练完成进入应用阶段Mbert将用户输入文本数据表达为具备语义的特征向量。
基于视觉-语言融合模型的多模态编码器Fenc-Mul包含两个模块,分别为计算跨模态向量距离的Mcms和用于视觉-语言融合的Mvlf,如下所示:
Fenc-Mul={Mcms,Mvlf};
式中:Mcms表示模块用于计算图像特征向量和文本特征向量的距离相似性,使用cosine距离来衡量;Mvlf表示用于视觉-语言融合;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器。
Mvlf模块使用基于bert的模型的最后6层进行初始化,并使用额外的交叉注意力层对视觉-语言交互进行建模。
S3:训练多目标优化的细节语言与视觉融合模型。
构建包含四个损失函数的多目标综合监督优化方法,在中间分支引入深层监督策略。
S31:三元组损失用于学习图像特征和文本特征的表示空间,通过对比三个比较样本特征之间的距离计算损失;在文本特征编码器和图像特征编码器之间构建第一三元组损失函数Litt1;图像局部编码器编码的特征包含了更多的图像细节,这些细节对于最终的图像表达以及后续多模态编码器的训练至关重要,在文本特征编码器和图像局部特征编码器之间构建第二三元组损失函数Litt2用于深监督,如下所示:
式中:Litt1表示第一三元组损失函数;ε表示用于扩大基准样本和正/负样本对之间的差距的最小边距;Sim表示相似性召回模块;(I,T)表示匹配的图像-文本对特征,分别由图像编码器和文本编码器生成;T^表示未与图像I匹配的文本特征;I^表示未与文本T匹配的图像特征;Litt2表示第二三元组损失函数;Iloc表示图像局部编码器生成,式子右下角的+含义是[]内的值大于0的时候,取该值为损失,小于0的时候,损失为0。
S32:在多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数Litm,通过连接一层全连接二分类层实现对于一对输入图像和文本是否匹配的预测;在进行正/负样本的选择时,利用相似性召回模块计算单个批次内最接近于正样本的困难样本作为负样本以增强多模态模块的学习能力,损失计算形式如下所示:
Litm=-yitmlog(pitm(I,T))+(1-yitm)log(1-pitm(I,T));
式中:Litm表示多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数;yitm表示构建出的图像-文本对的匹配标签;pitm(I,T)表示图像-文本的匹配概率。
S33:在多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数Lmlm,掩码处理后的文本用T^表示,模型预测概率用pmsk(I,T^)表示,如下所示:
Lmlm=-ymsklog(pmsk(I,T^))+(1-ymsk)log(1-pmsk(I,T^));
式中:Lmlm表示多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数;ymsk表示图像-文本对的预测概率;pmsk表示模型预测概率。
S34:上述四个损失函数的组合策略会影响模型的最终表达效果,需要分配合适的权重系数用于多目标的共同优化,避免单个任务在联合学***衡权重的影响,如下所示:
式中:θt表示经过上述公式计算出的任务t的权重;Li(t)表示任务t在当前小批次迭代过程中计算出的损失值;L0(t)表示任务t在初始迭代过程中的损失值;λ表示用于平衡每个任务的权重,以0.5设置;i表示每轮训练过程的编号。
完成模型训练过程,训练过程主要针对图像编码器、文本编码器以及多模态编码器进行优化;将经过S1处理后的图像数据和文本数据按照第一比例值的方式划分为训练集、验证集以及测试集,在一个优选实施例中,第一比例值设为8:1:1,并将划分后的训练集送入到S2构建的模型中,模型参数采用正态分布进行初始化,不使用预训练参数;在计算图像-文本匹配损失时冻结图像编码器部分,专注于优化多模态编码器。
S4:构建遥感图像-文本描述特征库。
S41:在检索任务中,用召回率表示检索算法在返回的N个候选样本中正确样本的比例;首先用Ri2t表示图像到文本的检索召回率以及Rt2i表示文本到图像的检索召回率;然后计算在验证集上检索两个任务的top1,top5,top10的图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N。
图像至文本召回率如下所示:
式中:text1,text2…textN分别表示检索算法返回的第1个、第2个到第N个候选文本样本集合。
文本至图像召回率如下所示:
式中:image1,image2...imageN分别表示检索算法返回的第1个、第2个到第N个候选图像样本集合。
最后计算图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值mRi2t@N和mRi2t@N,并保存召回率最高的模型用于后续的检索任务中,具体计算公式如下所示:
式中:mRi2t@N和mRt2i@N分别表示图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值;Imagek表示第k个具有相似语义的图像-文本对;Textk表示第k个具有相似语义的文本-图像对;Ri2t@N(Imagek)表示输入图像Imagek;Rt2i@N(Textk)表示输入文本Textk;k表示图像与文本对编号;m表示图像与文本对总数;N表示检索任务编号。
S42:构建图像特征数据库,利用S3中训练好的图像编码器对所有图像数据进行特征提取,并将生成的图像特征存储在数据库中以提高后续应用时的检索效率。
S43:构建文本特征数据库,利用S3中训练好的文本编码器对所有文本数据进行特征提取,并将生成的文本特征存储在数据库中。
S5:完成遥感图像-文本描述的跨模态检索。
跨模态检索包含四大主要模块:图像编码模块、文本编码模块、相似性判断召回模块以及多模态重排序模块;其中,图像编码模块与文本编码模块并联,随后级联相似性判断召回模块以及多模态重排序模块;通过以上四个模块完成遥感图像-文本描述的跨模态检索,跨模态检索包括以文搜图过程和以图搜文过程,具体为:
以文搜图过程为:当输入一段文本描述,构建完成的跨模态检索模型首先利用文本编码模块计算输入文本的特征,随后在S4中构建的图像特征数据库中利用相似性判断召回模块计算每个图像特征与文本特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回图像与输入文本之间的匹配概率,从而实现对于初步检索结果的微调。如图4所示为本发明实施例以文搜图过程,以返回Top5相似结果为例。
以图搜文过程为:当输入一张图像,构建完成的跨模态检索模型首先利用图像编码模块计算输入图像的特征,随后在S4中构建的文本特征数据库中利用相似性判断召回模块计算每个文本特征与图像特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回文本与输入图像之间的匹配概率,从而实现对于初步检索结果的微调。如图5所示为本发明实施例以图搜文过程,以返回Top5相似结果为例。
本方法具备三方面的优势:
在训练阶段,本方法将流水线式的训练过程转变为端到端的训练过程,将传统的两阶段模型训练转变为一阶段,并且能够不依赖额外的基于目标识别的遥感图像高质量标注数据集进行训练,模型训练时间是两阶段训练方法的一半。
在模型训练过程中,通过多模态融合学习以及优化多目标任务,使得模型具备处理多细节任务的能力,并且将图像和文本之间进行语义对齐,在实验数据中与传统方法相比,在制定的mRi2t@N和mRt2i@N,N=1,5,10评价指标中超过多数的传统方法,如下表1所示,通过对实施例的分析能够看出,本方法的实际应用效果要优于传统方法1和传统方法2。
表1本方法与传统方法的对比分析结果
在召回任务完成后,引入基于语言与视觉融合模型的重排序模型,在较小的计算消耗下能够对召回结果进行进一步优化,进一步提高top-1和top-5排序性能,如下表2所示,有重排序模型的优化效果要由于无重排序模型。
表2有无重排序模型的对比分析结果
综上,本案例基于语言与视觉细节特征融合的遥感图像跨模态检索方法的预测结果证明了具有很好的效果。
(1)本发明实施例通过设计一个包含视觉和语言两个单模态编码器和一个多模态编码器的遥感图像跨模态检索框架,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合学习,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达能力,通过语义特征的相似性计算来完成跨模态检索任务。
(2)本发明实施例为了能表达图像的细节特征,并且消除掉预训练的目标识别模型带来的训练开销,通过设计一个浅层视觉transformer模型来提取图像的局部特征,将流水线式的“目标检测+检索”过程转变为端到端的训练过程;这个端到端的框架弥补了目标检测器和检索模型训练过程之间的差距,降低整个检索模型的训练开销。
(3)本发明实施例通过给模型设计一套多目标的优化策略,在此策略下对整体模型进行训练,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力;训练结果收敛的模型完成端到端的、不需要图像标签的文本-图像检索任务。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,其包括以下步骤:
步骤1:处理遥感图文检索模型的训练数据;
所述遥感图文检索模型的训练数据包括图像数据和文本数据,所述图像数据为实测图像,所述文本数据为遥感图像对应的描述信息;首先,获取文本数据中的单词个数lenwords和停用词个数lenstops;删除所有满足lenwords=lenstops以及lenwords=lenstops+1的图像-文本数据对,避免图像-文本数据对中的停用词干扰检索模型训练;然后,处理图像数据及对应的文本数据;最后,将清洗后的遥感图文检索训练数据用于训练图像局部编码器和全局编码器;
步骤2:构建多细节语言与视觉融合模型;
基于图像-文本特征的跨模态检索是分别对图像数据和文本数据的特征提取和表达,通过优化各个提取器的表达能力,将具备语义相似性的图像数据和文本数据的特征表示在向量空间中距离最小;基于多细节语言与视觉融合模型的整体架构包括:遥感图像视觉编码器Fenc-V,遥感图像描述语言特征编码器Fenc-L和基于视觉-语言融合模型的多模态编码器Fenc-Mul,如下所示:
式中:I表示输入的遥感图像数据;T表示输入的文本数据;fIL表示遥感图像的局部特征;fIGL表示遥感图像的局部-全局融合特征;fT表示遥感图像描述文本特征;Sdistance表示特征向量间的距离相似性;Spairwise表示图像-文本对的匹配概率值;Fenc-V表示遥感图像视觉编码器;Fenc-L表示遥感图像描述语言特征编码器;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器;
步骤3:训练多目标优化的细节语言与视觉融合模型;
构建包含四个损失函数的多目标综合监督优化方法,在中间分支引入深层监督策略;完成模型训练过程,所述训练过程主要针对图像编码器、文本编码器以及多模态编码器进行优化;将经过步骤1处理后的图像数据和文本数据按照第一比例值划分为训练集、验证集以及测试集,并将划分后的训练集送入到步骤2构建的模型中,模型参数采用正态分布进行初始化,不使用预训练参数;在计算图像-文本匹配损失时冻结图像编码器部分,专注于优化多模态编码器;8:1:1的方式
步骤4:构建遥感图像-文本描述特征库;
步骤41:在检索任务中,用召回率表示检索算法在返回的N个候选样本中正确样本的比例;首先用Ri2t表示图像到文本的检索召回率以及Rt2i表示文本到图像的检索召回率;然后计算在验证集上检索两个任务的top1,top5,top10的图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N;最后计算图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值mRi2t@N和mRi2t@N,并保存召回率最高的模型用于后续的检索任务中,具体计算公式如下所示:
式中:mRi2t@N和mRt2i@N分别表示图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N在测试样本中的平均值;Imagek表示第k个具有相似语义的图像-文本对;Textk表示第k个具有相似语义的文本-图像对;Ri2t@N(Imagek)表示输入图像Imagek;Rt2i@N(Textk)表示输入文本Textk;k表示图像与文本对编号;m表示图像与文本对总数;N表示检索任务编号;
步骤42:构建图像特征数据库,利用步骤3中训练好的图像编码器对所有图像数据进行特征提取,并将生成的图像特征存储在数据库中以提高后续应用时的检索效率;
步骤43:构建文本特征数据库,利用步骤3中训练好的文本编码器对所有文本数据进行特征提取,并将生成的文本特征存储在数据库中;
步骤5:完成遥感图像-文本描述的跨模态检索;
所述跨模态检索包含四个模块:图像编码模块、文本编码模块、相似性判断召回模块以及多模态重排序模块;其中,图像编码模块与文本编码模块并联,随后级联相似性判断召回模块以及多模态重排序模块;通过以上四个模块完成遥感图像-文本描述的跨模态检索。
2.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤1中的处理图像数据及对应的文本数据,具体为;
所述图像数据的处理过程如下:
步骤111:将所有图像数据统一调整为278x278x3的尺寸;
步骤112:对输入图像数据按照50%的概率进行基础数据增强,包括随机旋转、随机翻转以增强模型的泛化能力;
步骤113:对输入图像数据进行数据量的扩充,采用图像数据拼接方法,根据类别标签,在同一个类别内部,随机选取两张图像I_a和I_b并进行像素级别的叠加,对于文本部分,直接进行文本描述的拼接,将T_b直接拼接在T_a的后面;
步骤114:对经过步骤112和步骤113后的图像数据进行随机裁剪,裁剪区域大小为256x256x3以适应后续神经网络模型的输入;
步骤115:对经过步骤114后的图像数据进行归一化处理,以将图像灰度范围变换至0-1之间;
所述文本数据的处理过程如下:
步骤121:对于文本数据进行去停用词处理,同时设置最大单词长度为64,对文本数据进行截断,丢弃超出最大单词长度的部分;
步骤122:构建“随机掩码”结合“定向掩码”策略,如下所示:
步骤1221:构建布尔类型的文本数据掩码描述符S_T,长度与处理后的文本数据中的单词长度一致,以False进行初始化,默认不进行任何掩码操作;
步骤1222:按照伯努利分布随机选中S_T中15%的位置并以True进行标记;
步骤1223:记录所有图像的类别标签imgs_cls,遍历文本数据,将包含imgs_cls的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的类别信息;
步骤1224:构建数量信息描述符S_N,存储0-10内的英文数字单词,遍历文本数据,将包含S_N的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的数量信息;
步骤1225:对于所有S_T中以True标记的位置,按照80%的概率对文本数据单词进行[MASK]空白替换;按照10%的概率进行随机单词的替换,将原有单词替换成随机的任意其余单词;其余10%位置的单词不进行替换。
3.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤2中的遥感图像视觉编码器,具体为:
在遥感图像-文本跨模态检索任务中,图像数据中包含的语义信息的信息量和复杂程度要高于其对应的文本数据,因此在视觉编码器Fenc-V中设计提取图像全局特征的模块Mcnn-mvsa和提取局部特征的模块Mvit,同时设计融合全局特征和局部特征的模块Mmidf,具体如下所示:
式中:fIG表示遥感图像的全局特征;Mcnn-mvsa表示遥感图像全局特征提取模块;Mvit表示遥感图像的局部特征提取模块;Mmidf表示融合全局特征和局部特征的模块;
所述遥感图像的全局特征提取模块Mcnn-mvsa是由一个ResNet-50残差卷积神经网络作为特征提取器,利用多尺度自注意力模型来优化特征提取的效果,将步骤1中的经过清洗和增强后的整幅图像输入到Mcnn-mvsa中,得到fIG
所述遥感图像的局部特征提取模块Mvit是由一个6层的VisionTransformer模型作为特征提取器,将步骤1中序列化后图像数据输入到Mvit中进行特征提取,得到fIL
所述全局特征和局部特征的融合模块Mmidf是一个线性函数,通过将特征fIG和fIL进行线性加和,在训练过程中得到的第一融合参数a和第二融合参数b,如下所示:
MmidffIG,fIL=afIG+bfIL
式中:Mmidf表示全局特征和局部特征的融合模块;a表示第一融合参数;b表示第二融合参数。
4.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤2中的遥感图像描述语言特征编码器,具体为:
所述遥感图像描述语言特征编码器Fenc-L包括一个基于Bert的文本编码器Mbert,如下所示:
fT=MbertT;
式中:Mbert表示标准的Bert模型;
在训练过程中Mbert会根据标注数据调整模型的特征表达特性,增强模型对于特征的表达能力,将通过步骤1中遮掩的文本数据作为训练数据,输入模型Mbert中;在模型训练完成进入应用阶段Mbert将用户输入文本数据表达为具备语义的特征向量。
5.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤2中的基于视觉-语言融合模型的多模态编码器,具体为:
基于视觉-语言融合模型的多模态编码器Fenc-Mul包含两个模块,分别为计算跨模态向量距离的Mcms和用于视觉-语言融合的Mvlf,如下所示:
Fenc-Mul={Mcms,Mvlf};
式中:Mcms表示模块用于计算图像特征向量和文本特征向量的距离相似性,使用cosine距离来衡量;Mvlf表示用于视觉-语言融合;Fenc-Mul表示基于视觉-语言融合模型的多模态编码器;
Mvlf模块使用基于bert的模型的最后6层进行初始化,并使用额外的交叉注意力层对视觉-语言交互进行建模。
6.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤3中构建包含四个损失函数的多目标综合监督优化方法,具体为:
步骤31:三元组损失用于学习图像特征和文本特征的表示空间,通过对比三个比较样本特征之间的距离计算损失;在文本特征编码器和图像特征编码器之间构建第一三元组损失函数Litt1;图像局部编码器编码的特征包含了更多的图像细节,这些细节对于最终的图像表达以及后续多模态编码器的训练至关重要,在文本特征编码器和图像局部特征编码器之间构建第二三元组损失函数Litt2用于深监督,如下所示:
式中:Litt1表示第一三元组损失函数;ε表示用于扩大基准样本和正/负样本对之间的差距的最小边距;Sim表示相似性召回模块;(I,T)表示匹配的图像-文本对特征,分别由图像编码器和文本编码器生成;T^表示未与图像I匹配的文本特征;I^表示未与文本T匹配的图像特征;Litt2表示第二三元组损失函数;Iloc表示图像局部编码器生成,式子右下角的+含义是[]内的值大于0的时候,取该值为损失,小于0的时候,损失为0;
步骤32:在多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数Litm,通过连接一层全连接二分类层实现对于一对输入图像和文本是否匹配的预测;在进行正/负样本的选择时,利用相似性召回模块计算单个批次内最接近于正样本的困难样本作为负样本以增强多模态模块的学习能力,损失计算形式如下所示:
Litm=-yitmlog(pitm(I,T))+(1-yitm)log(1-pitm(I,T));
式中:Litm表示多模态编码器和图像特征编码器之间构建图像-文本匹配损失函数;yitm表示构建出的图像-文本对的匹配标签;pitm(I,T)表示图像-文本的匹配概率;
步骤33:在多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数Lmlm,掩码处理后的文本用T^表示,模型预测概率用pmsk(I,T^)表示,如下所示:
Lmlm=-ymsklog(pmsk(I,T^))+(1-ymsk)log(1-pmsk(I,T^));
式中:Lmlm表示多模态编码器和图像局部特征编码器之间构建掩码语言模型损失函数;ymsk表示图像-文本对的预测概率;pmsk表示模型预测概率;
步骤34:上述四个损失函数的组合策略会影响模型的最终表达效果,需要分配合适的权重系数用于多目标的共同优化,避免单个任务在联合学***衡权重的影响,如下所示:
式中:θt表示经过上述公式计算出的任务t的权重;Li(t)表示任务t在当前小批次迭代过程中计算出的损失值;L0(t)表示任务t在初始迭代过程中的损失值;λ表示用于平衡每个任务的权重,以0.5设置;i表示每轮训练过程的编号。
7.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤41中图像至文本召回率Ri2t@N和文本至图像召回率Rt2i@N,具体为:
所述图像至文本召回率如下所示:
式中:text1,text2…textN分别表示检索算法返回的第1个、第2个到第N个候选文本样本集合;
所述文本至图像召回率如下所示:
式中:image1,image2...imageN分别表示检索算法返回的第1个、第2个到第N个候选图像样本集合。
8.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤5中的遥感图像-文本描述的跨模态检索包括以文搜图过程和以图搜文过程,具体为:
所述以文搜图过程为:当输入一段文本描述,构建完成的跨模态检索模型首先利用文本编码模块计算输入文本的特征,随后在步骤4中构建的图像特征数据库中利用相似性判断召回模块计算每个图像特征与文本特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回图像与输入文本之间的匹配概率,从而实现对于初步检索结果的微调;
所述以图搜文过程为:当输入一张图像,构建完成的跨模态检索模型首先利用图像编码模块计算输入图像的特征,随后在步骤4中构建的文本特征数据库中利用相似性判断召回模块计算每个文本特征与图像特征的相似性,并返回top1、top5以及top10相似的特征,作为初步检索结果;多模态重排序模块用于对初步检索结果的二次修正,该模块计算每个返回文本与输入图像之间的匹配概率,从而实现对于初步检索结果的微调。
CN202310550653.6A 2023-05-16 2023-05-16 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 Pending CN116775922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310550653.6A CN116775922A (zh) 2023-05-16 2023-05-16 基于语言与视觉细节特征融合的遥感图像跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310550653.6A CN116775922A (zh) 2023-05-16 2023-05-16 基于语言与视觉细节特征融合的遥感图像跨模态检索方法

Publications (1)

Publication Number Publication Date
CN116775922A true CN116775922A (zh) 2023-09-19

Family

ID=87993958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310550653.6A Pending CN116775922A (zh) 2023-05-16 2023-05-16 基于语言与视觉细节特征融合的遥感图像跨模态检索方法

Country Status (1)

Country Link
CN (1) CN116775922A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977796A (zh) * 2023-09-25 2023-10-31 中国科学技术大学 零样本图像识别方法、***、设备及存储介质
CN117292146A (zh) * 2023-10-27 2023-12-26 中科苏州智能计算技术研究院 一种面向工业场景的构建多模态大语言模型的方法、***和应用方法
CN117556079A (zh) * 2024-01-12 2024-02-13 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质
CN117557414A (zh) * 2023-11-30 2024-02-13 重庆欣荣土地房屋勘测技术研究所有限责任公司 基于遥感图像自动解译的耕地监管方法、装置、设备及存储介质
CN117609527A (zh) * 2024-01-16 2024-02-27 合肥人工智能与大数据研究院有限公司 一种基于向量数据库的跨模态数据检索优化方法
CN117648459A (zh) * 2024-01-29 2024-03-05 中国海洋大学 针对高相似海洋遥感数据的图文跨模态检索方法及***
CN117690031A (zh) * 2024-02-04 2024-03-12 中科星图数字地球合肥有限公司 一种基于sam模型的小样本学习遥感图像检测方法
CN117909535A (zh) * 2024-03-15 2024-04-19 中国科学技术大学 基于视觉语言模型的组合理解方法、***、设备与介质
CN118115850A (zh) * 2024-04-29 2024-05-31 成都索贝数码科技股份有限公司 一种基于跨模态提示学习的可控图像描述方法及装置
CN118133241A (zh) * 2024-05-07 2024-06-04 中国科学院自动化研究所 多模态预训练模型的训练方法、装置、设备和存储介质
CN118154854A (zh) * 2024-05-09 2024-06-07 中国科学技术大学 多视角特征聚合的目标检测方法
CN118155214A (zh) * 2024-05-11 2024-06-07 腾讯科技(深圳)有限公司 一种提示学习方法、图像分类方法及相关装置
CN118170938A (zh) * 2024-05-12 2024-06-11 西北工业大学 基于跨模态自进化知识泛化的信息引导目标搜索方法
CN118230009A (zh) * 2024-05-13 2024-06-21 高视科技(苏州)股份有限公司 基于多模态特征匹配的半导体芯片异常检测方法及介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977796B (zh) * 2023-09-25 2024-02-23 中国科学技术大学 零样本图像识别方法、***、设备及存储介质
CN116977796A (zh) * 2023-09-25 2023-10-31 中国科学技术大学 零样本图像识别方法、***、设备及存储介质
CN117292146A (zh) * 2023-10-27 2023-12-26 中科苏州智能计算技术研究院 一种面向工业场景的构建多模态大语言模型的方法、***和应用方法
CN117557414A (zh) * 2023-11-30 2024-02-13 重庆欣荣土地房屋勘测技术研究所有限责任公司 基于遥感图像自动解译的耕地监管方法、装置、设备及存储介质
CN117556079B (zh) * 2024-01-12 2024-04-16 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质
CN117556079A (zh) * 2024-01-12 2024-02-13 航天宏图信息技术股份有限公司 遥感影像内容检索方法、装置、电子设备及介质
CN117609527A (zh) * 2024-01-16 2024-02-27 合肥人工智能与大数据研究院有限公司 一种基于向量数据库的跨模态数据检索优化方法
CN117648459B (zh) * 2024-01-29 2024-04-26 中国海洋大学 针对高相似海洋遥感数据的图文跨模态检索方法及***
CN117648459A (zh) * 2024-01-29 2024-03-05 中国海洋大学 针对高相似海洋遥感数据的图文跨模态检索方法及***
CN117690031B (zh) * 2024-02-04 2024-04-26 中科星图数字地球合肥有限公司 一种基于sam模型的小样本学习遥感图像检测方法
CN117690031A (zh) * 2024-02-04 2024-03-12 中科星图数字地球合肥有限公司 一种基于sam模型的小样本学习遥感图像检测方法
CN117909535A (zh) * 2024-03-15 2024-04-19 中国科学技术大学 基于视觉语言模型的组合理解方法、***、设备与介质
CN117909535B (zh) * 2024-03-15 2024-05-31 中国科学技术大学 基于视觉语言模型的组合理解方法、***、设备与介质
CN118115850A (zh) * 2024-04-29 2024-05-31 成都索贝数码科技股份有限公司 一种基于跨模态提示学习的可控图像描述方法及装置
CN118133241A (zh) * 2024-05-07 2024-06-04 中国科学院自动化研究所 多模态预训练模型的训练方法、装置、设备和存储介质
CN118154854A (zh) * 2024-05-09 2024-06-07 中国科学技术大学 多视角特征聚合的目标检测方法
CN118155214A (zh) * 2024-05-11 2024-06-07 腾讯科技(深圳)有限公司 一种提示学习方法、图像分类方法及相关装置
CN118170938A (zh) * 2024-05-12 2024-06-11 西北工业大学 基于跨模态自进化知识泛化的信息引导目标搜索方法
CN118230009A (zh) * 2024-05-13 2024-06-21 高视科技(苏州)股份有限公司 基于多模态特征匹配的半导体芯片异常检测方法及介质

Similar Documents

Publication Publication Date Title
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN112905827B (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN110738146B (zh) 一种目标重识别神经网络及其构建方法和应用
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
Hoxha et al. A new CNN-RNN framework for remote sensing image captioning
CN109684928B (zh) 基于互联网检索的中文文档识别方法
WO2021088935A1 (zh) 对抗网络架构的优化方法、图像描述生成方法和***
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN111598183A (zh) 一种多特征融合图像描述方法
CN113033438A (zh) 一种面向模态非完全对齐的数据特征学习方法
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN112988970A (zh) 一种服务于智能问答***的文本匹配算法
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN110197213B (zh) 基于神经网络的图像匹配方法、装置和设备
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN116186328A (zh) 一种基于预聚类引导的视频文本跨模态检索方法
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN117453859A (zh) 一种农业病虫害图文检索方法、***及电子设备
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination