CN115033727A

CN115033727A - 基于跨模态置信度感知的图像文本匹配方法

Info

Publication number: CN115033727A
Application number: CN202210504329.6A
Authority: CN
Inventors: 毛震东; 张勇东; 张铧天; 张坤
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-09
Anticipated expiration: 2042-05-10
Also published as: CN115033727B

Abstract

本发明涉及跨模态检索领域，公开了一种基于跨模态置信度感知的图像文本匹配方法，以待匹配文本为桥梁，参考图像‑文本的全局语义，来衡量图像区域在待匹配文本中被描述的可信程度。并且，本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时，根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对，更准确地度量的图文相关性，提升跨模态检索性能。

Description

基于跨模态置信度感知的图像文本匹配方法

技术领域

本发明涉及跨模态检索领域，具体涉及一种基于跨模态置信度感知的图像文本匹配方法。

背景技术

随着互联网应用和社交媒体的兴起，图像、文本、视频和语音等模态的信息海量涌现。多模态信息的理解与应用日益重要，如何实现信息的跨模态转化、映射与对齐是近年来的研究热点。图像-文本匹配任务是跨模态领域中的核心任务，其通过计算图像和文本的语义相似度来进行跨模态检索，缩减两模态间的视觉-语义鸿沟以实现异质模态对齐，并可启发对其他跨模态任务的探索，如字幕生成，视觉问答等。因此，实现一种精准的图文匹配方法，对异质模态对齐理论的探讨和多模态应用技术的拓展都有重大意义。

现有的图文匹配方法可分为两种策略：基于全局对齐的匹配和基于局部对齐的匹配。全局对齐方法直接基于整张图像和全文在公共嵌入空间中的对齐程度来推断跨模态语义相似度。基于局部对齐的方法从检测到的显著区域和文本单词之间的局部语义对齐中聚合得到图文整体相关性。近来的研究工作主要关注于挖掘区域-单词水平上的细粒度视觉-语义对齐，如通过建模区域-单词间的语义交互过程来获得有助于对齐的可分性表征，或设计局部对齐聚合机制以得到更准确的整体相关性。总的来说，现有的方法主要通过关联局部视觉-语义来匹配区域-单词，再机械地聚合区域-单词匹配对之间的局部语义相似度来衡量图像-文本的整体相关性。

然而在现有的方法中，局部语义相似度，即区域-单词匹配对的相关性，被以默认的匹配置信度被聚合，这是不合理的。因为匹配置信度，即区域-单词匹配对的可信程度，取决于全局图像-文本语义，相互间存在差异。也就是说，某局部区域-单词对虽然是匹配的，但它与全局的图像-文本语义并不一致，是不可信任的。因此，为了揭示局部语义相似度对整体跨模态相关性的真实合理的贡献水平，需要明确表示区域-单词对在匹配中的置信度。在不考虑置信度的情况下，与整体语义不一致的区域-单词匹配对将被不加区分地聚合，从而干扰整体相关性的度量。

发明内容

为解决上述技术问题，本发明提供一种基于跨模态置信度感知的图像文本匹配方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于跨模态置信度感知的图像文本匹配方法，包括以下步骤：

步骤一：抽取图像I上N个区域v_i的特征表示和文本T中M个单词u_i的特征表示，计算图像的全局表征v^glo和文本T的全局表征u^glo；

步骤二：通过规范化距离向量表示图像上各区域v_i与语义相关文本

的区域局部语义相似度

文本T中各单词u_i与语义相关区域

的单词局部语义相似度

以及图像I和文本T的全局语义相似度s^glo；

步骤三：以区域v_i的周边区域作为视觉上下文

对区域v_i进行扩展，通过视觉上下文

计算区域v_i在文本T中被描述的程度

其中

为可学习参数矩阵；

步骤四：以文本为桥梁，通过全局语义相似度s^glo和视觉上下文

计算区域v_i对应的匹配置信度c_i：

c＝σ(LayerNorm([∈₁，∈₂，…，∈_i，…，∈_N]))；

其中c＝[c₁，c₂，…c_i，…，c_N]，

为可学习参数向量，⊙指示元素对应相乘操作，σ表示sigmoid函数，LayerNorm表示层规范化操作；

步骤五：通过匹配置信度c_i对相应区域局部语义相似度

进行缩放，得到全局语义相似度s^glo和各被缩放后的区域局部语义相似度

构成的集合S_v，全局语义相似度s^glo与单词局部语义相似度

构成集合S_u；

步骤六：分别在集合S_v和S_u上应用多层自注意力推理，拼接最后一层注意力推理层中视觉增强的全局语义相似度

和语言增强的全局语义相似度

得到拼接向量，将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I，T)：

其中

为可学习参数向量。

具体地，步骤一中抽取图像I上的区域v_i的特征表示以及计算图像的全局表征v^glo的方法如下：

采用以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征x_i，然后将x_i线性映射为共同嵌入空间中的视觉向量作为区域v_i的特征，图像I的全局表征v^glo通过以区域平均值v_ave为查询键的注意力机制来编码：

其中注意力权重w_i是v_ave和v_i的相似度。

具体地，步骤一中抽取文本T中的单词u_i的特征表示以及计算文本T的全局表征u^glo的方法如下：

将M个单词的one-hot编码{d₁，d₂，…，d_M}由可学习单词映射层t_i＝W_ed_i转换为分布式表征，使用Bi-GRU来编码单词的前向信息

和后向信息

采用

作为被上下文增强的单词u_i的表征；其中W_e为单词映射层的线性变换参数矩阵；

文本T的全局表征u^glo通过以单词平均值u_ave为查询键的注意力机制来编码：

其中注意力权重w_i是u_ave和u_i的相似度。

具体地，步骤三中以区域v_i的周边区域作为视觉上下文

对区域v_i进行扩展的方法如下：将区域v_i的周边划分为上、下、左、右四个视域，从每个视域中提取距离区域v_i最近的3个区域并收集区域的索引号构成集合idx_i，区域v_i的视觉上下文

其中w_i为注意力权重。

具体地，步骤二中规范化距离向量表示图像上各区域v_i与语义相关文本

的区域局部语义相似度

文本T中各单词u_i与语义相关区域

的单词局部语义相似度

以及图像I和文本T的全局语义相似度s^glo的方法如下：

图像上各区域v_i与语义相关文本

的区域局部语义相似度

文本中各单词u_i和语义相关区域

的单词局部语义相似度

图像和文本的全局语义相似度

其中，

为可学习参数矩阵。

具体地，所述图像文本匹配方法训练时使用的损失函数

为双向三元组排序损失：

其中λ是边距常数，[x]₊＝max(x，0)，对于给定的图文匹配对(I，T)，

分别是训练批次中的图文最难例；模型训练时，边距常数λ设置为0.2，设置自注意力推理的总层数L为3，采用Adam作为优化器，学习率初始化为0.0005，区域和单词的特征表示向量的维度D为1024，各语义相似度向量的维度P为256。

与现有技术相比，本发明的有益技术效果是：

针对区域-单词匹配置信度不可区分的问题，本发明首次提出应用于图像文本匹配的跨模态置信度感知方法，该方法创新地计算区域-单词匹配对的置信度，并在全局聚合前使用匹配置信度来放缩相应的局部语义相似度，以准确地度量图文整体相关性。跨模态置信度感知方法以文本为桥梁，根据图像-文本整体语义相似信息中所包含的区域视觉上下文与全文的语义相似信息的多少来推断相应的区域-单词匹配置信度，其表示给定文本描述各区域的相对程度。

具体地，置信度是通过区域视觉上下文-文本的语义相似度与整张图像-文本的语义相似度之间的内积来计算的。在度量图文相关性作为匹配证据时，本发明根据区域-单词匹配置信度来加权由相应区域查询到的跨模态语义相似度，并通过自注意力机制借助加权局部区域语义相似度来增强全局对齐信息，基于增强后的对齐信息计算图像-文本整体语义相关性。

附图说明

图1为本发明图像文本匹配方法的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

多模态对齐定义为从两个或多个模态中查找实例子组件之间的关系和对应，研究不同的信号如何对齐，比如给电影中的影像找出剧本中文字。

如图1所示，本发明提出了一种基于跨模态置信度感知的图像文本匹配方法，由三部分构成：(1)图像与文本特征表示；(2)区域-单词匹配置信度推理；(3)区分匹配置信度的跨模态相关性度量。对于给定的图像和文本，首先进行图像与文本的特征表示，以及各图像区域的视觉语义扩展，再以区域的视觉上下文和全文之间的语义相似度被包含在图像-文本的整体语义相似度中的程度，即该区域被文本所真正描述的相对程度，来推断其匹配置信度，最后根据匹配置信度在整体相关性聚合中过滤掉与全局语义不一致的不可信局部对齐信息。

1.图像与文本特征表示

1.1图像特征表示

本发明采用在VisualGenomes数据集上训练完备的以ResNet-101为骨干网络的Faster R-CNN目标检测器来抽取图像上N个显著区域的特征x_i，然后将x_i线性映射为共同嵌入空间中的视觉向量作为区域v_i的特征。图像的全局表征v^glo通过以区域平均值v_ave为查询键的注意力机制来编码：

其中注意力权重w_i是v_ave和区域v_i特征的相似度。本实施例中N＝36。

1.2文本特征表示

本发明首先将单词的one-hot编码{d₁，d₂，…，d_M}由可学习单词映射层t_i＝W_ed_i转换为分布式表征。为使用文本上下文来增强单词语义，本发明使用Bi-GRU来编码单词的前后向信息：

并采用

作为被上下文增强的单词表征；

文本全局表征u^glo的计算方法与图像全局表征v^glo的相同。

1.3视觉语义扩展

为了使图像区域的语义更可区分，本发明进一步提取各区域的视觉上下文进行语义扩展。考虑到一个区域的周边场景通常包含与其相关的语义内容，本发明设计以其周边区域作为视觉上下文来扩展该区域。具体地，对于区域v_i，将其周围场景划分为上、下、左、右四个视域，从每个视域中提取距离区域v_i最近的3个区域并收集相关的索引号构成集合idx_i；区域v_i的视觉上下文

其中w_i和计算图像全局表征v^glo时的注意力权重相同。

2.区域-单词匹配置信度推理

2.1跨模态对齐

为了刻画视觉和语言之间的详细对齐关系，跨模态对齐图像-文本，本发明采用规范化距离向量来表示异质模态间的语义相似度。具体地，计算图像区域v_i和其匹配到的语义相关文本

的区域局部语义相似度

其中

是可学习参数矩阵。v_i的语义相关文本

也称为文本模态上下文，是α_iju_j，j＝1，…，M的累加。其中

c_ij是图像区域v_i和单词u_j的余弦相似度。相似地，单词u_i和其视觉模态上下文

之间的单词局部语义相似度

被计算为

区域局部语义相似度也称为由区域查询到的语义相似度，单词局部语义相似度也称为由单词查询到的语义相似度。

本发明进一步通过v^glo和u^glo的度量全局语义相似向量s^glo：

其中，

是可学习参数矩阵。

2.2匹配置信度推理

当图像的显著区域被分开查看时，它们的视觉语义是片段化的，以至于局部对齐的区域-单词可能与全局的图像-文本语义不一致。置信度是指各区域的视觉语义和图像-文本全局视野的一致性程度，可以过滤掉和全局语义不一致的区域-单词匹配对。具体地，本发明首先将区域v_i扩展为它的视觉上下文

以使各区域v_i的语义更加可分。扩展的视觉上下文可以用来验证各区域在文本中被描述的程度

其中

是可学习参数矩阵。

参考给定的文本，文本的语义对整个图像的语义描述的程度可由s^glo度量。本发明以文本为桥梁，由全局语义相似度s^glo和

来度量区域全局语义相似度的匹配置信度c_i：

c＝σ(LayerNorm([∈₁，∈₂，…，∈₃₆]))；

其中c＝[c₁，c₂，…，c₃₆]，

是可学习参数向量，⊙指示元素对应相乘操作，σ表示sigmoid函数，LayerNorm表示层规范化操作。匹配置信度是由区域v_i的视觉上下文和全文之间的语义相似度

被包含在图像-文本的全局语义相似度s^glo中的程度推断出来的，它表明了该区域从全局的图像-文本的角度被描述的相对程度。

2.3区分匹配置信度的跨模态相关性度量

为在图像-文本匹配中区分区域-单词匹配对的置信度，过滤虽然局部匹配但在文本整体语义中没有真正提及区域相关的区域-单词对所贡献的局部语义相似度，即不可靠的区域-单词匹配对，本发明首先将每个由区域查询到的语义相似度

与相应的c_i相乘，并将全局语义相似度s^glo和被匹配置信度缩放后的

集合为：

同时，s^glo和由单词查询到的语义相似度

被集合为

本发明分别在集合S_v和S_u上应用多层自注意力推理，得到模态增强的拼接全局对齐信息：

其中

和

是第l自注意力推理层中的可学习参数，

是将第l层的自注意力调整后的特征映射到第l+1层的参数矩阵。注意在上式中

和

均被指示为S^l；

和

分别是S_v和S_u由第l自注意力推理层所增强后的对齐信息集合。

拼接最后一层的视觉增强的全局语义相似度

和语言增强的全局语义相似度

并将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r：

其中

是将拼接全局对齐信息映射为标量相关性的可学习参数。

本发明中的图像文本匹配方法训练时的损失函数为双向三元组排序损失：

其中λ是边距常数，[x]₊＝max(x，0)，给定图文匹配对(I，T)，

分别是训练批次中的图文最难例。模型训练时，边距常数λ设置为0.2，设置自注意力推理的总层数L为3，采用Adam作为优化器，学习率初始化为0.0005。本发明设置图像区域和文本单词的特征向量的维度D为1024，各语义相似度向量的维度P为256。

数据集使用Flickr30K和MSCOCO。Flickr30K数据集包含31000张图像，每张图像对应5句文本描述。本发明使用29000张图像用于训练，1000张图像用于验证，1000张图像用于测试。MSCOCO数据集包含133，287张图像，每张图像对应5句文本描述。本发明使用123287张图像用于训练，5000张图像用于验证，5000张图像用于测试。

与现有的不考虑图像区域-单词匹配对的可信性的方法相比，本发明提出了一种新颖的跨模态置信度感知模型，其以待匹配文本为桥梁，参考图像-文本的全局语义，来衡量图像区域在待匹配文本中被描述的可信程度。并且，本发明在聚合区域-单词匹配对的局部对齐信息以得到图文整体相关性时，根据匹配置信度来过滤掉与全局图像-文本语义不一致的局部区域-单词匹配对，更准确地度量的图文相关性，提升跨模态检索性能。

本发明中的实验评估指标为R@K(Recall at K)，K＝1，5，10和R@Sum，R@K表示在检索到的前K结果中包含正确样本的查询的百分比，R@Sum表示图像检索文本和文本检索图像两方向上的R@K指标的总和，衡量了总体匹配性能。大量实验结果表明，本发明提出的方法能够在图文匹配中推断出区域-单词匹配对的可信程度，并在整体相关性聚合时滤除低可信的局部对齐信息，显著提升图文匹配任务的精度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。