CN112861882A

CN112861882A - 一种基于频率自适应的图像-文本匹配方法及***

Info

Publication number: CN112861882A
Application number: CN202110260146.XA
Authority: CN
Inventors: 赵晶; 秦宥煊
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-05-28
Anticipated expiration: 2041-03-10
Also published as: CN112861882B

Abstract

本发明公开了一种基于频率自适应的图像‑文本匹配方法及***。该方法为图像区域增添上下文信息，在图卷积上自适应地聚合低频和高频信号，实现了显著物体区域之间的语义推理；然后，提出一个注意力交互方法，通过迭代机制生成全局特征，在单词和图像区域的聚合过程中逐步达到语义对齐的效果；最后，利用损失函数获得最终匹配效果。

Description

一种基于频率自适应的图像-文本匹配方法及***

技术领域

本发明属于图像-文本匹配领域，尤其涉及基于频率自适应的图像-文本匹配方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

1、匹配方法：以往的匹配方法用嵌入将图像和文本映射到共同空间中进行简单对比，通过学习不同模态的映射分析视觉-文本的层次结构，得到对应的匹配效果。随着互联网的快速发展，用户对匹配精度的要求也在不断提高。为此，目前注意力机制在模态匹配上使用很广泛。例如使用双重注意机制，汇集各个局部的相似点进行相似性度量，获得不同模态中相同的突出部分。在此基础上，有学者通过提升特征提取效果从而提升匹配能力。例如，加入图像中实体的相对位置信息提高图像表示的准确性。

2、注意力机制：为了精确关注图像或文本中的重要信息，过滤掉不起作用的信息，注意力机制在图像-文本匹配中起到关键作用。目前，贴近人类真实感受的自下而上的注意力机制作为图像的提取方法，显示出强大的效果。它能够获取图像的显著目标从而达到更好的匹配效果。

3、语义推理：推理的目的在于从已知的条件下，用机器学习分析知识图谱中目标潜在的关系，这也是热门的研究课题。早先的推理在外推的基础上表示符号间的关系，缺少可解释性。路径排序算法采用抽象的关系路径替代逻辑规则，从而将关系推理问题转化为图上的有监督学习问题，也是关系推理的一种方法。目前，不少学者提出在路径排序算法的基础上作出改进，在推理准确性和计算效率上都有了很大提高。近年来，基于深度学习的关系推理模型成为推理领域的研究热点。研究人员尝试将先前的推理方法与深度学习相结合，利用记忆推理能力为自然语言处理和视觉信息处理找到新的突破点。

发明人发现，目前提出的图像-文本匹配模型中缺少对于图像-文本不同模态间细粒度的语义关系，很难模拟真实世界中人的匹配行为。对于复杂语义的单独模态内部联系(如图像中实体和属性之间的联系)还有待提高。图像的特征表示上，以往的方法只关注目标特征，忽略多个目标之间的关联，不利于学习整幅图像的精确表示。目前采用的GCN学习到的参数大于0，更注重对低频信号的聚合，这在某些条件下会模糊节点的表示，用在图像处理时不能展现出理想效果。

发明内容

为了解决上述问题，本发明的第一个方面提供一种基于频率自适应的图像-文本匹配方法，其能够利用图卷积中节点的高低频信号，自适应的给图片内部区域增加上下文信息，同时，可以利用迭代机制将异构的图像和文本数据高效的语义对齐，生成全局的特征表达提高匹配速率。

为了实现上述目的，本发明采用如下技术方案：

一种基于频率自适应的图像-文本匹配方法，包括：

获取数据，所述数据包括图像以及与图像匹配的文本；

使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型，具体步骤包括：对所述数据中的图像和文本进行初始特征表示，得到图像的初始表征和文本的初始表征；基于频率自适应的区域语义推理方法，计算带有全局上下文增强语义关系的图像区域集合；将图像区域集合和文本的初始表征输入迭代注意力交互层，得到语义增强的图像全局特征和语义增强的文本全局特征；计算损失函数，利用优化器对损失函数进行优化。

进一步地，所述图像的初始表征，具体计算步骤为：

通过卷积神经网络得到图像的每个区域特征；

对所述的每个区域特征进行线性变换；

对线性变换后的每个区域特征进行归一化处理，得到每个区域归一化处理后的区域特征，组成图像的初始表征。

进一步地，所述文本的初始表征，具体计算步骤为：

使用one-hot将文本中的每个单词编码；

计算每个单词的嵌入表示；

总结来自两个方向的上下文信息；

采用平均值的方式得到带有上下文信息增强的词特征，组成文本的初始表征。

进一步地，所述计算带有全局上下文增强语义关系的图像区域集合，具体步骤为：

对于图像构建一个无向图；

为无向图中的每个节点自适应的聚合所有关联节点的高低频信息，得到语义推理后的节点，组成带有全局上下文增强语义关系的图像区域集合。

进一步地，所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为：

选择图像和文本中的任一项作为查询模态，另一项作为另一模态；

使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征；

若图像为查询模态，则将查询模态的全局特征作为语义增强的图像全局特征，另一模态的全局特征作为语义增强的文本全局特征；若文本为查询模态，则将查询模态的全局特征作为语义增强的文本全局特征，另一模态的全局特征作为语义增强的图像全局特征。

进一步地，所述损失函数为三元组损失函数。

再进一步地，所述注意力交互函数在另一模态的引导下，对查询模态不同片段的关注度不同。

为了解决上述问题，本发明的第二个方面提供一种基于频率自适应的图像-文本匹配***，其能够利用图卷积中节点的高低频信号，自适应的给图片内部区域增加上下文信息，同时，可以利用迭代机制将异构的图像和文本数据高效的语义对齐，生成全局的特征表达提高匹配速率。

为了实现上述目的，本发明采用如下技术方案：

一种基于频率自适应的图像-文本匹配***，包括：

数据获取模块，其被配置为：获取数据，所述数据包括图像以及与图像匹配的文本；

模型训练模块，其被配置为：使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型，具体步骤包括：对所述数据中的图像和文本进行初始特征表示，得到图像的初始表征和文本的初始表征；基于频率自适应的区域语义推理方法，计算带有全局上下文增强语义关系的图像区域集合；将图像区域集合和文本的初始表征输入迭代注意力交互层，得到语义增强的图像全局特征和语义增强的文本全局特征；计算损失函数，利用优化器对损失函数进行优化。

本发明的第三方面提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

本发明的第四方面提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

本发明的有益效果是：

本发明对于复杂的视觉信息处理，将图像区域作为节点进行连接，通过自适应的聚合节点高低频信息，使显著区域和它相关的容易忽略的部分建立联系。

本发明采用迭代的注意力网络动态的对齐片段信息，达到视觉和文本之间异构模态的互动，提高了匹配精度；利用迭代机制将异构的图像和文本数据高效的语义对齐，生成全局的特征表达提高匹配速率。

本发明根据生成的全局特征，采用三元组损失作为目标函数使图像-文本匹配实现端到端的优化。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的图像-文本匹配框架；

图2是本发明实施例的图像-文本匹配模型结构图；

图3是本发明实施例的在MS-COCO 1K数据集上图像匹配文本消融实验；

图4是本发明实施例的在MS-COCO 1K数据集上文本匹配图像的消融实验；

图5是本发明实施例的在MS-COCO 1K上随着迭代注意力交互模块中的迭代次数的变化召回值的变化趋势图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本实施例提供一种基于频率自适应的图像-文本匹配方法。

如图1-图2所示，一种基于频率自适应的图像-文本匹配方法，具体的，提取图像的区域级信息和文本的单词级信息作为初始化的特征表达；其中，图像提取使用贴近人类真实感受的自下而上的注意力，文本提取采用目前先进的双向循环的神经网络GRU实现编码过程；对于复杂的视觉信息处理，我们将图像区域作为节点进行连接，通过自适应的聚合节点高低频信息，使显著区域和它相关的容易忽略的部分建立联系；随后，采用迭代的注意力网络动态的对齐片段信息，达到视觉和文本之间异构模态的互动；本模型根据生成的全局特征，采用三元组损失作为目标函数使图像-文本匹配实现端到端的优化。具体步骤包括：

S1：获取数据集，并将数据集划分为训练集和测试集，训练集和测试集均包括图像以及与图像匹配的文本，将所述图像和文本中的任一项作为查询模态，另一项作为另一模态；例如，图像作为查询模态，则文本作为另一模态；文本作为查询模态，则图像作为另一模态；

S2：使用训练集训练基于频率自适应和迭代注意力交互的图像-文本匹配模型；

S3：将作为查询模态的数据输入到所述的图像-文本匹配模型中，匹配出查询模态的另一模态表示。

步骤S2中使用训练集训练基于频率自适应和迭代注意力交互的图像-文本匹配模型的步骤为：首先，选用最先进的特征表示的方法进行初始化；然后，将频率自适应引入到图像区域语义推理之中；还将提出一个迭代的注意力交互模块，在异构特征逐步对齐后生成全局语义表达；最后，通过设定的目标函数优化我们的模型进行训练；具体的：

S201、对训练集中的图像和文本进行初始特征表示，得到图像的初始表征V和文本的初始表征S：

所述图像的初始表征，具体计算步骤为：通过卷积神经网络得到图像I的每个区域特征；对所述的每个区域特征进行线性变换得到D维的区域特征；对线变换后的每个区域特征进行归一化处理，得到每个区域归一化处理后的区域特征v_i，则图像I的初始表征为V＝{v₁，v₂，...，v_n}，v_i∈R^D，i＝1，2，...，n。具体的：

图像提取使用贴近人类真实感受的Fast R-CNN，它是预先训练的，能够用区域vi表示图像中的显著内容，图像II表示为V_i的集合

对于图像I的集合表示V⁰，通过卷积神经网络，我们可以得到池化后的2048维度的向量f_i，它表示图像I的每个区域特征；为了之后的运算，f_i需要进行线性变换，如公式(1)：

v_i＝W_If_i+b_I (1)

其中，W_I和b_I表示经过学习得到的参数，使f_i变为一个D-dimensional的区域特征Vi；随后，对每个区域特征进行归一化处理，归一化后的集合V＝{v₁，v₂，...，v_n}，v_i∈R^D用来作为图像I的初始表征。

所述文本的初始表征，具体计算步骤为：使用one-hot将文本T中的每个单词编码；计算每个单词的嵌入表示；总结来自两个方向的上下文信息；采用平均值的方式得到带有上下文信息增强的词特征s_j，则文本T的初始表征为S＝[s_j|j＝1，..，m，s_j∈R^D]。具体的：

采用Encoder-Decoder架构得到句子序列表示：首先，用one-hot编码m个单词的句子T的每个单词w_j，w_j表示第j个单词的向量表示；随后，学习一个矩阵W_e，用向量t_j＝W_ew_j，j∈[1，m]作为单词w_j的嵌入表示；为了获得词义增强的句子表示，使用带有forward GRU和backward GRU的bi-directional GRU总结来自两个方向的上下文信息：

其中，

和

表示两个不同方向的GRU，分别依次输入每个单词；此时，采用平均值的方式定义带有上下文信息增强的词特征

最终，采用增强的词特征s_j表示每个单词w_j，则S＝[s_j|j＝1，..，m，s_j∈R^D]作为句子T的初始表征。

S202、基于频率自适应的区域语义推理方法，计算带有全局上下文增强语义关系的图像区域集合V′，具体步骤为：对于图像I构建一个无向图G＝(V，E)，其中，图像I的初始表征V＝{v₁，v₂，...，v_n}表示所有图像区域组成的节点集合，E表示边的集合；为无向图中的每个节点v_i自适应的聚合所有关联节点v_j的高低频信息，得到语义推理后的节点v′_i，则V′＝[v′_i|i＝1，..，n，v′_i∈R^D]为带有全局上下文增强语义关系的图像区域集合；具体的：

把每个图像区域作为图的节点表示，构建一个无向图G＝(V，E)，其中V＝{v₁，v₂，...，v_n}，v_i∈R^D是由所有图像区域组成的节点集合，E表示边的集合；通过改进的GraphConvolutional Networks(GCN)学习一个频率自适应参数W_ij(W_ij∈[-1，1])，它能够代表相邻节点之间的高低频比例关系实际上，低频信号代表了节点特征与邻居特征的加和，高频信号代表了节点特征与邻居特征的差值，使用

和

表示节点i与邻居节点j的低频和高频系数；通过公式(3)，我们能够学习到一个取值在[-1，1]之间的系数W_ij：

W_ij＝tanh(g^T|v_i||v_j|) (3)

其中，||作为节点的拼接操作，采用g^T可以看作是用来映射的一个共享的卷积核，v_j表示节点v_i的邻居节点，v_i为所述归一化处理后的区域特征，，为了使W_ij的值限制在[-1，1]，使用双曲正切进行处理。至此，我们能够自适应的学习到用W_ij表示的每个节点与它相邻节点的高低频比例；随后，为每个节点v_i聚合与它相邻的各个节点的高低频信息，在这个过程中，节点v_i通过加入所有关联节点的信息.推理出增强后的节点v_i；这个过程是通过以下实现的：

这里的φ为激活函数，l(l∈[1，5])为图卷积的层数，表示节点聚合的次数，

表示节点v_i在第l层的输出，v′_i为节点v_i在最后一层的输出；ε是一个范围在[0，1]的超参数，在我们的实验中，ε＝0.3；为了防止处理内容过大，在聚合过程中加入n-1作为正则化处理；最后一层输出的

v′_i∈R^D为我们聚合高低频信息得到的语义推理后的节点，我们使用V′＝[v′_i|i＝1，..，n，v′_i∈R^D]作为带有全局上下文增强语义关系的图像区域集合。

S203、将图像区域集合V′和文本的初始表征S输入迭代注意力交互层，得到经过迭代注意力交互层生成的语义增强的图像全局特征V^*和经过迭代注意力交互层生成的语义增强的文本全局特征S^*；具体步骤为：

将所述的图像区域集合V′作为图像的片段特征集合；将所述的文本的初始表征S作为文本的片段特征集合；

将所述图像和文本中的任一项作为查询模态X，另一项作为另一模态Y，令输入Q为查询模态的片段级特征集合，输入P为另一模态的片段特征集合；另p0等于Y，初始化迭代次数t；

以p_t-1作为先验指导，使用注意力交互函数计算经过一次语义对齐后的Q的全局特征qt，其标准化定义为：

q_t＝A(Q，p_t-1)；

以qt作为先验指导，使用注意力交互函数计算经过一次语义对齐后的P的全局特征表示pt，其标准化定义为：

p_t＝A(P，q_t)；

生成qt和pt的过程作为一次迭代，共迭代T次，得到qT和pT；若图像为查询模态，则qT为经过迭代注意力交互层生成的语义增强的图像全局特征，pT为经过迭代注意力交互层生成的语义增强的文本全局特征；若文本为查询模态，则qT为经过迭代注意力交互层生成的语义增强的文本全局特征，pT为经过迭代注意力交互层生成的语义增强的图像全局特征；

所述注意力交互函数Z＝A(X，Y)具体定义如下：

H＝tanh(U_XX+(U_YY)1^T+b^a1^T)

其中，U_X，U_Y∈R^D*k，b^a，u_a∈R^D作为注意力交互函数A()科学系的参数；1代表所有元素都为1的特征向量；

表示在Y的引导下，对第k个片段的特征X_k的关注度；Z是利用Y经过一次语义对齐后的X的全局特征；X、Y表示两输入模态的片段级特征集合。

具体的：我们把为注意力交互模块定义为Z＝A(X，Y)，其中，输入X为查询模态的片段级特征集合X＝[X_k|k＝1，.，K，X_k∈R^D]，当X表示图像区域集合V′＝[v′_i|i＝1，..，n，v′_i∈R^D]时，片段级特征数量K＝n；当X表示文本词集合S＝[s_j|j＝1，..，m，s_j∈R^D]时，K＝m；输入Y为跨模态匹配中除了X之外的另一模态，它代表X的对立模态的全局表示，用Y来作为注意力交互模块的注意力指导，Y的初始化是通过平均池化实现的；例如，当X为图像区域集合的时候，Y为经过池化后的初始句子级的全局语义向量，输出Z是一次语义对齐后的X的全局语义表示；实际运用中，注意力交互函数A()的具体定义如下：

H＝tanh(U_XX+(U_YY)1^T+b^a1^T)

其中，U_X，U_Y∈R^D*k，b^a，u_a∈R^D作为注意力交互函数A()科学系的参数，1代表所有元素都为1的特征向量，

是Z的注意力权重；当X表示图像区域集合时，

作为图像注意力权重可以被认为是在整个句子引导下，对第k个图像区域X_k的关注程度；Z是利用Y经过一次语义对齐后的X的全局语义表示；

当X表示图像区域集合时，我们首先对单词级特征初始化，通过平均池化生成句子级别的特征向量，作为Y的表示p0，p0等于Y；当X表示单词级特征S_j时，我们则把Y当成图像级别的特征向量；

实际上，文本-图像和图像-文本的匹配模型是对称的；以文本匹配图片为例，以p₀作为先验指导，使用注意力加权V′生成图片全局级别的特征，表示为q₁，q₁∈R^D；随后，以q₁为先验指导，使用注意力加权S生成更新后的文本全局级别的特征p₁，p₁∈R^D；生成q₁和p₁的过程作为一次迭代，共迭代T次；该过程的标准化定义如下所示：

g_t＝A(V；p_t-1)，

p_t＝A(S；g_t) (7)

其中，t为第t次迭代，p_t和q_t分别是语义对齐后的文本和图像的全局语义表示，V′和S分别表示语义增强后的区域特征和词特征的集合；因此，迭代t次的图像全局语义表示(image-level)将更多地关注与句子描述相关的具体区域内容，文本全局语义表示(scentence-level)将更多的关注与图像描述相关的具体单词。

S204、计算损失函数，利用优化器对损失函数进行优化：

文本和图像在嵌入空间中分别以D维特征表示；我们采用三元组损失作为损失函数，不再像以往关注所有训练中的否定，而是在小批量样本中把负样本作为关注点，损失函数表示为：

其中，

作为损失的边距参数，[]₊表示包含的值大于零的时候，取该值为损失，小于零的时候，损失为零，Q()是一个由内积实现的函数，计算语义相似度，V^*表示经过迭代注意力交互模块生成的语义增强的图像全局特征(V^*＝q_T)，即共通过T次迭代后得到图像全局语义表示q_T，将其作为V*；S^*表示经过迭代注意力交互模块生成的语义增强的文本全局特征(S^*＝p_T)，即共通过T次迭代后得到文本全局语义表示p_T，将其作为S*；

和

表示小批量中的负样本，计算损失时把小部分图像-文本对的数据作为小批量处理，成对的图像-文本是正样本，反之为负样本；为了使匹配模型能够在每次迭代实现细粒度的语义对齐，我们利用优化器对目标函数进行优化，让图像-文本匹配模型实现端到端的优化。

我们分别使用MSCOCO分割后的1000和5000张图片作为测试数据，比较我们的模型和目前最先进的模型之间的差距。结果表明，表明我们的模型相比于其他模型有很大的竞争力。经过消融实验可以看出(具体如图3-图4所示)，分别加入频率自适应语义推理模块和迭代注意力交互模块的模型与基线模型相比有较大提升，直接说明本模型提出的两大模块能够明显提升匹配性能。

图3和图4，在MS-COCO 1K上进行消融实验，Baseline表示一个基线模型。Baseline+FA表示把图像区域的平均池化替换为频率自适应的区域语义推理模块。Baseline+IAM表示在基线模型上加入迭代注意力交互模块。FA-IATI是我们提出的完整跨模态匹配模型。该次试验包含图像匹配和文本匹配。图3和图4中R@K，K＝1，5，10，是指召回率，是匹配模型的评价指标，表示在与查询最接近的K点中匹配到正确项目的查询所占的比例。

图5在MS-COCO 1K上对迭代注意力交互模块中的迭代次数进行分析。本次实验包含当Recall@1的时候图像查询和文本查询的测试结果，Recall@1表示在与查询最接近的1点中匹配到正确项目的查询所占的比例。

实施例2

本实施例提供一种基于频率自适应的图像-文本匹配***，包括：

实施例3

本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1所述方法的步骤。

实施例4

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1所述方法的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于频率自适应的图像-文本匹配方法，其特征在于，包括：

获取数据，所述数据包括图像以及与图像匹配的文本；

2.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述图像的初始表征，具体计算步骤为：

通过卷积神经网络得到图像的每个区域特征；

对所述的每个区域特征进行线性变换；

3.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述文本的初始表征，具体计算步骤为：

使用one-hot将文本中的每个单词编码；

计算每个单词的嵌入表示；

总结来自两个方向的上下文信息；

4.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述计算带有全局上下文增强语义关系的图像区域集合，具体步骤为：

对于图像构建一个无向图；

5.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为：

6.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述损失函数为三元组损失函数。

7.如权利要求5所述的一种基于频率自适应的图像-文本匹配方法，其特征在于，所述注意力交互函数在另一模态的引导下，对查询模态不同片段的关注度不同。

8.一种基于频率自适应的图像-文本匹配***，其特征在于，包括：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法的步骤。