CN115033727A - 基于跨模态置信度感知的图像文本匹配方法 - Google Patents

基于跨模态置信度感知的图像文本匹配方法 Download PDF

Info

Publication number
CN115033727A
CN115033727A CN202210504329.6A CN202210504329A CN115033727A CN 115033727 A CN115033727 A CN 115033727A CN 202210504329 A CN202210504329 A CN 202210504329A CN 115033727 A CN115033727 A CN 115033727A
Authority
CN
China
Prior art keywords
text
image
semantic similarity
region
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210504329.6A
Other languages
English (en)
Other versions
CN115033727B (zh
Inventor
毛震东
张勇东
张铧天
张坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210504329.6A priority Critical patent/CN115033727B/zh
Publication of CN115033727A publication Critical patent/CN115033727A/zh
Application granted granted Critical
Publication of CN115033727B publication Critical patent/CN115033727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及跨模态检索领域,公开了一种基于跨模态置信度感知的图像文本匹配方法,以待匹配文本为桥梁,参考图像‑文本的全局语义,来衡量图像区域在待匹配文本中被描述的可信程度。并且,本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时,根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对,更准确地度量的图文相关性,提升跨模态检索性能。

Description

基于跨模态置信度感知的图像文本匹配方法
技术领域
本发明涉及跨模态检索领域,具体涉及一种基于跨模态置信度感知的图像文本匹配方法。
背景技术
随着互联网应用和社交媒体的兴起,图像、文本、视频和语音等模态的信息海量涌现。多模态信息的理解与应用日益重要,如何实现信息的跨模态转化、映射与对齐是近年来的研究热点。图像-文本匹配任务是跨模态领域中的核心任务,其通过计算图像和文本的语义相似度来进行跨模态检索,缩减两模态间的视觉-语义鸿沟以实现异质模态对齐,并可启发对其他跨模态任务的探索,如字幕生成,视觉问答等。因此,实现一种精准的图文匹配方法,对异质模态对齐理论的探讨和多模态应用技术的拓展都有重大意义。
现有的图文匹配方法可分为两种策略:基于全局对齐的匹配和基于局部对齐的匹配。全局对齐方法直接基于整张图像和全文在公共嵌入空间中的对齐程度来推断跨模态语义相似度。基于局部对齐的方法从检测到的显著区域和文本单词之间的局部语义对齐中聚合得到图文整体相关性。近来的研究工作主要关注于挖掘区域-单词水平上的细粒度视觉-语义对齐,如通过建模区域-单词间的语义交互过程来获得有助于对齐的可分性表征,或设计局部对齐聚合机制以得到更准确的整体相关性。总的来说,现有的方法主要通过关联局部视觉-语义来匹配区域-单词,再机械地聚合区域-单词匹配对之间的局部语义相似度来衡量图像-文本的整体相关性。
然而在现有的方法中,局部语义相似度,即区域-单词匹配对的相关性,被以默认的匹配置信度被聚合,这是不合理的。因为匹配置信度,即区域-单词匹配对的可信程度,取决于全局图像-文本语义,相互间存在差异。也就是说,某局部区域-单词对虽然是匹配的,但它与全局的图像-文本语义并不一致,是不可信任的。因此,为了揭示局部语义相似度对整体跨模态相关性的真实合理的贡献水平,需要明确表示区域-单词对在匹配中的置信度。在不考虑置信度的情况下,与整体语义不一致的区域-单词匹配对将被不加区分地聚合,从而干扰整体相关性的度量。
发明内容
为解决上述技术问题,本发明提供一种基于跨模态置信度感知的图像文本匹配方法。
为解决上述技术问题,本发明采用如下技术方案:
一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:
步骤一:抽取图像I上N个区域vi的特征表示和文本T中M个单词ui的特征表示,计算图像的全局表征vglo和文本T的全局表征uglo
步骤二:通过规范化距离向量表示图像上各区域vi与语义相关文本
Figure BDA0003636819250000021
的区域局部语义相似度
Figure BDA0003636819250000022
文本T中各单词ui与语义相关区域
Figure BDA0003636819250000023
的单词局部语义相似度
Figure BDA00036368192500000219
以及图像I和文本T的全局语义相似度sglo
步骤三:以区域vi的周边区域作为视觉上下文
Figure BDA0003636819250000025
对区域vi进行扩展,通过视觉上下文
Figure BDA0003636819250000026
计算区域vi在文本T中被描述的程度
Figure BDA0003636819250000027
其中
Figure BDA0003636819250000028
为可学习参数矩阵;
步骤四:以文本为桥梁,通过全局语义相似度sglo和视觉上下文
Figure BDA0003636819250000029
计算区域vi对应的匹配置信度ci
c=σ(LayerNorm([∈1,∈2,…,∈i,…,∈N]));
Figure BDA00036368192500000210
其中c=[c1,c2,…ci,…,cN],
Figure BDA00036368192500000211
为可学习参数向量,⊙指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;
步骤五:通过匹配置信度ci对相应区域局部语义相似度
Figure BDA00036368192500000212
进行缩放,得到全局语义相似度sglo和各被缩放后的区域局部语义相似度
Figure BDA00036368192500000213
构成的集合Sv,全局语义相似度sglo与单词局部语义相似度
Figure BDA00036368192500000220
构成集合Su
步骤六:分别在集合Sv和Su上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度
Figure BDA00036368192500000215
和语言增强的全局语义相似度
Figure BDA00036368192500000216
得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):
Figure BDA00036368192500000217
其中
Figure BDA00036368192500000218
为可学习参数向量。
具体地,步骤一中抽取图像I上的区域vi的特征表示以及计算图像的全局表征vglo的方法如下:
采用以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征,图像I的全局表征vglo通过以区域平均值vave为查询键的注意力机制来编码:
Figure BDA0003636819250000031
其中注意力权重wi是vave和vi的相似度。
具体地,步骤一中抽取文本T中的单词ui的特征表示以及计算文本T的全局表征uglo的方法如下:
将M个单词的one-hot编码{d1,d2,…,dM}由可学习单词映射层ti=Wedi转换为分布式表征,使用Bi-GRU来编码单词的前向信息
Figure BDA0003636819250000032
和后向信息
Figure BDA0003636819250000033
Figure BDA0003636819250000034
Figure BDA0003636819250000035
采用
Figure BDA0003636819250000036
作为被上下文增强的单词ui的表征;其中We为单词映射层的线性变换参数矩阵;
文本T的全局表征uglo通过以单词平均值uave为查询键的注意力机制来编码:
Figure BDA0003636819250000037
其中注意力权重wi是uave和ui的相似度。
具体地,步骤三中以区域vi的周边区域作为视觉上下文
Figure BDA0003636819250000038
对区域vi进行扩展的方法如下:将区域vi的周边划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集区域的索引号构成集合idxi,区域vi的视觉上下文
Figure BDA0003636819250000039
其中wi为注意力权重。
具体地,步骤二中规范化距离向量表示图像上各区域vi与语义相关文本
Figure BDA00036368192500000310
的区域局部语义相似度
Figure BDA00036368192500000314
文本T中各单词ui与语义相关区域
Figure BDA00036368192500000312
的单词局部语义相似度
Figure BDA00036368192500000313
以及图像I和文本T的全局语义相似度sglo的方法如下:
图像上各区域vi与语义相关文本
Figure BDA0003636819250000041
的区域局部语义相似度
Figure BDA0003636819250000042
文本中各单词ui和语义相关区域
Figure BDA0003636819250000043
的单词局部语义相似度
Figure BDA0003636819250000044
图像和文本的全局语义相似度
Figure BDA0003636819250000045
其中,
Figure BDA0003636819250000046
为可学习参数矩阵。
具体地,所述图像文本匹配方法训练时使用的损失函数
Figure BDA0003636819250000047
为双向三元组排序损失:
Figure BDA0003636819250000048
其中λ是边距常数,[x]+=max(x,0),对于给定的图文匹配对(I,T),
Figure BDA0003636819250000049
分别是训练批次中的图文最难例;模型训练时,边距常数λ设置为0.2,设置自注意力推理的总层数L为3,采用Adam作为优化器,学习率初始化为0.0005,区域和单词的特征表示向量的维度D为1024,各语义相似度向量的维度P为256。
与现有技术相比,本发明的有益技术效果是:
针对区域-单词匹配置信度不可区分的问题,本发明首次提出应用于图像文本匹配的跨模态置信度感知方法,该方法创新地计算区域-单词匹配对的置信度,并在全局聚合前使用匹配置信度来放缩相应的局部语义相似度,以准确地度量图文整体相关性。跨模态置信度感知方法以文本为桥梁,根据图像-文本整体语义相似信息中所包含的区域视觉上下文与全文的语义相似信息的多少来推断相应的区域-单词匹配置信度,其表示给定文本描述各区域的相对程度。
具体地,置信度是通过区域视觉上下文-文本的语义相似度与整张图像-文本的语义相似度之间的内积来计算的。在度量图文相关性作为匹配证据时,本发明根据区域-单词匹配置信度来加权由相应区域查询到的跨模态语义相似度,并通过自注意力机制借助加权局部区域语义相似度来增强全局对齐信息,基于增强后的对齐信息计算图像-文本整体语义相关性。
附图说明
图1为本发明图像文本匹配方法的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
多模态对齐定义为从两个或多个模态中查找实例子组件之间的关系和对应,研究不同的信号如何对齐,比如给电影中的影像找出剧本中文字。
如图1所示,本发明提出了一种基于跨模态置信度感知的图像文本匹配方法,由三部分构成:(1)图像与文本特征表示;(2)区域-单词匹配置信度推理;(3)区分匹配置信度的跨模态相关性度量。对于给定的图像和文本,首先进行图像与文本的特征表示,以及各图像区域的视觉语义扩展,再以区域的视觉上下文和全文之间的语义相似度被包含在图像-文本的整体语义相似度中的程度,即该区域被文本所真正描述的相对程度,来推断其匹配置信度,最后根据匹配置信度在整体相关性聚合中过滤掉与全局语义不一致的不可信局部对齐信息。
1.图像与文本特征表示
1.1图像特征表示
本发明采用在VisualGenomes数据集上训练完备的以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征。图像的全局表征vglo通过以区域平均值vave为查询键的注意力机制来编码:
Figure BDA0003636819250000051
其中注意力权重wi是vave和区域vi特征的相似度。本实施例中N=36。
1.2文本特征表示
本发明首先将单词的one-hot编码{d1,d2,…,dM}由可学习单词映射层ti=Wedi转换为分布式表征。为使用文本上下文来增强单词语义,本发明使用Bi-GRU来编码单词的前后向信息:
Figure BDA0003636819250000052
Figure BDA0003636819250000053
并采用
Figure BDA0003636819250000054
作为被上下文增强的单词表征;
文本全局表征uglo的计算方法与图像全局表征vglo的相同。
1.3视觉语义扩展
为了使图像区域的语义更可区分,本发明进一步提取各区域的视觉上下文进行语义扩展。考虑到一个区域的周边场景通常包含与其相关的语义内容,本发明设计以其周边区域作为视觉上下文来扩展该区域。具体地,对于区域vi,将其周围场景划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集相关的索引号构成集合idxi;区域vi的视觉上下文
Figure BDA0003636819250000061
其中wi和计算图像全局表征vglo时的注意力权重相同。
2.区域-单词匹配置信度推理
2.1跨模态对齐
为了刻画视觉和语言之间的详细对齐关系,跨模态对齐图像-文本,本发明采用规范化距离向量来表示异质模态间的语义相似度。具体地,计算图像区域vi和其匹配到的语义相关文本
Figure BDA0003636819250000062
的区域局部语义相似度
Figure BDA0003636819250000063
Figure BDA0003636819250000064
其中
Figure BDA0003636819250000065
是可学习参数矩阵。vi的语义相关文本
Figure BDA00036368192500000614
也称为文本模态上下文,是αijuj,j=1,…,M的累加。其中
Figure BDA0003636819250000067
cij是图像区域vi和单词uj的余弦相似度。相似地,单词ui和其视觉模态上下文
Figure BDA0003636819250000068
之间的单词局部语义相似度
Figure BDA0003636819250000069
被计算为
Figure BDA00036368192500000610
区域局部语义相似度也称为由区域查询到的语义相似度,单词局部语义相似度也称为由单词查询到的语义相似度。
本发明进一步通过vglo和uglo的度量全局语义相似向量sglo
Figure BDA00036368192500000611
其中,
Figure BDA00036368192500000612
是可学习参数矩阵。
2.2匹配置信度推理
当图像的显著区域被分开查看时,它们的视觉语义是片段化的,以至于局部对齐的区域-单词可能与全局的图像-文本语义不一致。置信度是指各区域的视觉语义和图像-文本全局视野的一致性程度,可以过滤掉和全局语义不一致的区域-单词匹配对。具体地,本发明首先将区域vi扩展为它的视觉上下文
Figure BDA00036368192500000613
以使各区域vi的语义更加可分。扩展的视觉上下文可以用来验证各区域在文本中被描述的程度
Figure BDA0003636819250000071
其中
Figure BDA0003636819250000072
是可学习参数矩阵。
参考给定的文本,文本的语义对整个图像的语义描述的程度可由sglo度量。本发明以文本为桥梁,由全局语义相似度sglo
Figure BDA0003636819250000073
来度量区域全局语义相似度的匹配置信度ci
Figure BDA0003636819250000074
c=σ(LayerNorm([∈1,∈2,…,∈36]));
其中c=[c1,c2,…,c36],
Figure BDA0003636819250000075
是可学习参数向量,⊙指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作。匹配置信度是由区域vi的视觉上下文和全文之间的语义相似度
Figure BDA0003636819250000076
被包含在图像-文本的全局语义相似度sglo中的程度推断出来的,它表明了该区域从全局的图像-文本的角度被描述的相对程度。
2.3区分匹配置信度的跨模态相关性度量
为在图像-文本匹配中区分区域-单词匹配对的置信度,过滤虽然局部匹配但在文本整体语义中没有真正提及区域相关的区域-单词对所贡献的局部语义相似度,即不可靠的区域-单词匹配对,本发明首先将每个由区域查询到的语义相似度
Figure BDA00036368192500000722
与相应的ci相乘,并将全局语义相似度sglo和被匹配置信度缩放后的
Figure BDA0003636819250000078
集合为:
Figure BDA0003636819250000079
同时,sglo和由单词查询到的语义相似度
Figure BDA00036368192500000710
被集合为
Figure BDA00036368192500000711
本发明分别在集合Sv和Su上应用多层自注意力推理,得到模态增强的拼接全局对齐信息:
Figure BDA00036368192500000712
其中
Figure BDA00036368192500000713
Figure BDA00036368192500000714
是第l自注意力推理层中的可学习参数,
Figure BDA00036368192500000715
是将第l层的自注意力调整后的特征映射到第l+1层的参数矩阵。注意在上式中
Figure BDA00036368192500000716
Figure BDA00036368192500000717
均被指示为Sl
Figure BDA00036368192500000718
Figure BDA00036368192500000719
分别是Sv和Su由第l自注意力推理层所增强后的对齐信息集合。
拼接最后一层的视觉增强的全局语义相似度
Figure BDA00036368192500000720
和语言增强的全局语义相似度
Figure BDA00036368192500000721
并将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r:
Figure BDA0003636819250000081
其中
Figure BDA0003636819250000082
是将拼接全局对齐信息映射为标量相关性的可学习参数。
本发明中的图像文本匹配方法训练时的损失函数为双向三元组排序损失:
Figure BDA0003636819250000083
其中λ是边距常数,[x]+=max(x,0),给定图文匹配对(I,T),
Figure BDA0003636819250000084
Figure BDA0003636819250000085
分别是训练批次中的图文最难例。模型训练时,边距常数λ设置为0.2,设置自注意力推理的总层数L为3,采用Adam作为优化器,学习率初始化为0.0005。本发明设置图像区域和文本单词的特征向量的维度D为1024,各语义相似度向量的维度P为256。
数据集使用Flickr30K和MSCOCO。Flickr30K数据集包含31000张图像,每张图像对应5句文本描述。本发明使用29000张图像用于训练,1000张图像用于验证,1000张图像用于测试。MSCOCO数据集包含133,287张图像,每张图像对应5句文本描述。本发明使用123287张图像用于训练,5000张图像用于验证,5000张图像用于测试。
与现有的不考虑图像区域-单词匹配对的可信性的方法相比,本发明提出了一种新颖的跨模态置信度感知模型,其以待匹配文本为桥梁,参考图像-文本的全局语义,来衡量图像区域在待匹配文本中被描述的可信程度。并且,本发明在聚合区域-单词匹配对的局部对齐信息以得到图文整体相关性时,根据匹配置信度来过滤掉与全局图像-文本语义不一致的局部区域-单词匹配对,更准确地度量的图文相关性,提升跨模态检索性能。
本发明中的实验评估指标为R@K(Recall at K),K=1,5,10和R@Sum,R@K表示在检索到的前K结果中包含正确样本的查询的百分比,R@Sum表示图像检索文本和文本检索图像两方向上的R@K指标的总和,衡量了总体匹配性能。大量实验结果表明,本发明提出的方法能够在图文匹配中推断出区域-单词匹配对的可信程度,并在整体相关性聚合时滤除低可信的局部对齐信息,显著提升图文匹配任务的精度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:
步骤一:抽取图像I上N个区域vi的特征表示和文本T中M个单词ui的特征表示,计算图像的全局表征vglo和文本T的全局表征uglo
步骤二:通过规范化距离向量表示图像上各区域vi与语义相关文本
Figure FDA00036368192400000118
的区域局部语义相似度
Figure FDA0003636819240000011
文本T中各单词ui与语义相关区域
Figure FDA0003636819240000012
的单词局部语义相似度
Figure FDA0003636819240000013
以及图像I和文本T的全局语义相似度sglo
步骤三:以区域vi的周边区域作为视觉上下文
Figure FDA0003636819240000014
对区域vi进行扩展,通过视觉上下文
Figure FDA0003636819240000015
计算区域vi在文本T中被描述的程度
Figure FDA0003636819240000016
其中
Figure FDA0003636819240000017
为可学习参数矩阵;
步骤四:以文本为桥梁,通过全局语义相似度sglo和视觉上下文
Figure FDA0003636819240000018
计算区域vi对应的匹配置信度ci
c=σ(LayerNorm([∈1,E2,…,∈i,...,∈N]));
Figure FDA0003636819240000019
其中c=[c1,c2,...ci,...,cN],
Figure FDA00036368192400000110
为可学习参数向量,⊙指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;
步骤五:通过匹配置信度ci对相应区域局部语义相似度
Figure FDA00036368192400000111
进行缩放,得到全局语义相似度sglo和各被缩放后的区域局部语义相似度
Figure FDA00036368192400000112
构成的集合Sv,全局语义相似度sglo与单词局部语义相似度
Figure FDA00036368192400000113
构成集合Su
步骤六:分别在集合Sv和Su上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度
Figure FDA00036368192400000114
和语言增强的全局语义相似度
Figure FDA00036368192400000115
得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):
Figure FDA00036368192400000116
其中
Figure FDA00036368192400000117
为可学习参数向量。
2.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤一中抽取图像I上的区域vi的特征表示以及计算图像的全局表征vglo的方法如下:
采用以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征,图像I的全局表征vglo通过以区域平均值vave为查询键的注意力机制来编码:
Figure FDA0003636819240000021
其中注意力权重wi是vave和vi的相似度。
3.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤一中抽取文本T中的单词ui的特征表示以及计算文本T的全局表征uglo的方法如下:
将M个单词的one-hot编码{d1,d2,…,dM}由可学习单词映射层ti=Wedi转换为分布式表征,使用Bi-GRU来编码单词的前向信息
Figure FDA0003636819240000022
和后向信息
Figure FDA0003636819240000023
Figure FDA0003636819240000024
Figure FDA0003636819240000025
采用
Figure FDA0003636819240000026
作为被上下文增强的单词ui的表征;其中We为单词映射层的线性变换参数矩阵;
文本T的全局表征uglo通过以单词平均值Nave为查询键的注意力机制来编码:
Figure FDA0003636819240000027
其中注意力权重wi是uave和ui的相似度。
4.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤三中以区域vi的周边区域作为视觉上下文
Figure FDA0003636819240000028
对区域vi进行扩展的方法如下:将区域vi的周边划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集区域的索引号构成集合idxi,区域vi的视觉上下文
Figure FDA0003636819240000029
Figure FDA00036368192400000210
其中wi为注意力权重。
5.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤二中规范化距离向量表示图像上各区域vi与语义相关文本
Figure FDA00036368192400000211
的区域局部语义相似度
Figure FDA0003636819240000031
文本T中各单词ui与语义相关区域
Figure FDA0003636819240000032
的单词局部语义相似度
Figure FDA0003636819240000033
以及图像I和文本T的全局语义相似度sglo的方法如下:
图像上各区域vi与语义相关文本
Figure FDA0003636819240000034
的区域局部语义相似度
Figure FDA0003636819240000035
文本中各单词ui和语义相关区域
Figure FDA0003636819240000036
的单词局部语义相似度
Figure FDA0003636819240000037
图像和文本的全局语义相似度
Figure FDA0003636819240000038
其中,
Figure FDA0003636819240000039
为可学习参数矩阵。
6.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,所述图像文本匹配方法训练时使用的损失函数
Figure FDA00036368192400000313
为双向三元组排序损失:
Figure FDA00036368192400000310
其中λ是边距常数,[x]+=max(x,0),对于给定的图文匹配对(I,T),
Figure FDA00036368192400000311
Figure FDA00036368192400000312
分别是训练批次中的图文最难例;模型训练时,边距常数λ设置为0.2,设置自注意力推理的总层数L为3,采用Adam作为优化器,学习率初始化为0.0005,区域和单词的特征表示向量的维度D为1024,各语义相似度向量的维度P为256。
CN202210504329.6A 2022-05-10 2022-05-10 基于跨模态置信度感知的图像文本匹配方法 Active CN115033727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504329.6A CN115033727B (zh) 2022-05-10 2022-05-10 基于跨模态置信度感知的图像文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504329.6A CN115033727B (zh) 2022-05-10 2022-05-10 基于跨模态置信度感知的图像文本匹配方法

Publications (2)

Publication Number Publication Date
CN115033727A true CN115033727A (zh) 2022-09-09
CN115033727B CN115033727B (zh) 2023-06-20

Family

ID=83121315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504329.6A Active CN115033727B (zh) 2022-05-10 2022-05-10 基于跨模态置信度感知的图像文本匹配方法

Country Status (1)

Country Link
CN (1) CN115033727B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
CN116431849A (zh) * 2023-04-07 2023-07-14 四川大学 一种基于证据学习的鲁棒图文检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN113902764A (zh) * 2021-11-19 2022-01-07 东北大学 基于语义的图像-文本的跨模态检索方法
CN114037945A (zh) * 2021-12-10 2022-02-11 浙江工商大学 一种基于多粒度特征交互的跨模态检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113902764A (zh) * 2021-11-19 2022-01-07 东北大学 基于语义的图像-文本的跨模态检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及***
CN114037945A (zh) * 2021-12-10 2022-02-11 浙江工商大学 一种基于多粒度特征交互的跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾迪 等: "图像匹配方法研究综述" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431849A (zh) * 2023-04-07 2023-07-14 四川大学 一种基于证据学习的鲁棒图文检索方法
CN116431849B (zh) * 2023-04-07 2024-01-02 四川大学 一种基于证据学习的鲁棒图文检索方法
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法

Also Published As

Publication number Publication date
CN115033727B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
EP2344958B1 (en) Image-based semantic distance
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
Jiang et al. Deep compositional cross-modal learning to rank via local-global alignment
CN115033727B (zh) 基于跨模态置信度感知的图像文本匹配方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN112487822A (zh) 一种基于深度学习的跨模态检索方法
CN114048340B (zh) 一种层级融合的组合查询图像检索方法
Chen et al. Integrating information theory and adversarial learning for cross-modal retrieval
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115878832B (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN114461821A (zh) 一种基于自注意力推理的跨模态图文互索方法
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及***
CN115935194A (zh) 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法
CN115964560A (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN117009570A (zh) 一种基于位置信息与置信度感知的图文检索方法及装置
CN116956869A (zh) 文本标准化方法、装置、电子设备及存储介质
CN114329064A (zh) 视频处理方法、装置、计算机设备及存储介质
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant