CN117422978A

CN117422978A - 基于动态双级视觉信息融合的接地视觉问答方法

Info

Publication number: CN117422978A
Application number: CN202311428263.8A
Authority: CN
Inventors: 周东生; 张悦; 樊万姝; 车超
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-19

Abstract

本发明提供一种基于动态双级视觉信息融合的接地视觉问答方法，通过一个双级多尺度网络构建了接地视觉问答***，即分为语言引导的像素级特征和区域级特征，两种尺度分支结合起来进行最终文本答案和接地答案预测；并提出了一个问题引导的动态区域级特征定位网络，通过问题引导视觉信息定位并自适应的为接地答案分配不同尺寸的掩码，提升对小目标的定位和分割的准确性；还设计了一个跨模态聚合模块来融合两种级别的特征，可增强像素级和区域级特征之间的特征融合，以提升对接地答案掩码边缘的分割效果。本发明通过语言引导的自适应双级特征融合网络搭建的接地视觉问答***，可以在回答提问的同时生成答案接地掩码，有效地提高了整个模型的准确率。

Description

基于动态双级视觉信息融合的接地视觉问答方法

技术领域

本发明属于计算机视觉及自然语言处理技术领域，具体涉及一种基于动态双级视觉信息融合的接地视觉问答方法。

背景技术

近年来VQA(视觉问答)技术发展迅速，实际应用场景也越来越多，例如回答视障患者的提问或帮助放射科医生早期诊断致命疾病，以及人机交互。随着这些***的日益成熟，一个只产生良好回答的***准确性将是不够的，其答案具有根据性对于各种研究和应用也很重要。通过考虑模型的推理机制，可以在一定程度上为***可解释的支持。用于此类目的的理想VQA***不仅应该生成准确的答案，还应该提供一种验证答案的机制。

但传统的VQA通常只输出最终的文本答案缺少对视觉证据的验证，因此近年来有工作试图解决这个问题，如MAC-CAPS方法(基于胶囊的弱监督接地视觉问答)提出在得到文本答案的同时给出视觉注意力图，为了更好的评估***定位答***性。类似的方法还有LXMERT(基于transformer的跨模态编码器)，DCAMN(用于视觉问答的具有相互学习功能的双胶囊注意力掩模网络)等也在生成文本答案的同时输出其对应图片中的接地答案区域。但这些方法通常是输出与问题相关的注意力图或box来展示接地相关区域，如果在回答视觉问题时提供有根据的图像接地答案掩码，可以直接验证获得的答案是否令人信服，这可以使VQA***将更加可靠。同时在应用角度，获得图像接地掩码可以扩展更多应用，如面对视觉障碍人士的提问可以从背景中分割出相关内容，对背景进行模糊处理以保护隐私，或者可以放大相关视觉区域，低视力的用户可以更快地找到想要的信息。

因此提出了答案接地任务，与常规的VQA任务不同，它从视障人士的实际应用出发，旨在***在回答文本答案的同时输出与答案对应的视觉区域的掩码图。针对这个任务DAVI(基于双重视觉语言交互的答案接地)是结合了BLIP(引导语言图像预训练，实现统一视觉语言理解和生成)和VIT(基于视觉和语言研究的多模式框架)两个预训练大模型，包含两个编码器和两个解码器，将文本图像分割任务模型和视觉到语言生成任务模型组合起来，但实际还是相当于把生成文本答案和输出接地掩码这两个相互关联的任务分成了两个独立任务来做。而最新发表的DDTN(基于双解码器变压器网络的接地视觉回答)则是没有采用大规模预训练模型，但分割效果也相较DAVT下降很多。

发明内容

针对现有技术中存在的上述问题，本发明提出基于动态双级视觉信息融合的接地视觉问答方法，在不基于大规模预训练模型的前提下还可以达到比较好的分割效果，并且在一个编码器和解码器的条件下实现两种答案模态的输出，可以更好的实现两种模态间的交互。

为实现上述目的，本发明的技术方案为：

基于动态双级视觉信息融合的接地视觉问答方法，包括以下步骤：

步骤1：如图1，本发明采用问题引导区域级动态多尺度的方法来对接地答案进行的定位和分割，设计了语言引导的区域级特征模块QGDR，该模块由交叉注意力模块和空间注意力模块组成，最终得到分辨率从小到大的区域级掩模预测特征F_i∈F_t,F_s,F_m,F_l；其中F_t,F_s,F_m,F_l为四类区域特征层次结构，从F_t到F_l空间分辨率逐层递增两倍；

步骤2：同时为减少计算开销还能保持性能，采用了动态方法自适应地为每个定位对象分配适当分辨率大小的掩码，并对资源消耗进行了预算限制。QGDR输出有四种不同的开关状态，对应四种不同的掩模分辨率，即[14×14，28×28，56×56，112×112]；

步骤3：为了更好的融合两种级别的特征，还设计了一个跨模态多尺度融合模块FPA，来将语言引导的像素级特征模块PWAM和语言引导的区域级特征模块QGDR输出的特征F_i和P_i进行聚合；

步骤4：在语言引导的像素级特征模块PWAM和语言引导的区域级特征模块QGDR的每一级之间构造信息流，进行分层逐级解码，最后由图像分割解码器得到接地答案和文本解码器得到文本答案；采用掩码损失、边缘损失、预算约束和文本损失共同对由双级特征分支组成的接地视觉问答模型进行训练；

步骤5：加载步骤4中的模型，将所需要图像及其对应的问题输入到训练完的接地视觉问答模型中，得到相应的接地答案和文本答案。

基于上述方案，该方法采用了多尺度的信息融合，可以在不同尺度下更好地理解和处理视觉信息，有助于提高对复杂场景的理解和定位，从而提高问答的准确性。方法中采用了自适应的分辨率掩码分配，根据每个定位对象的需要动态分配适当的分辨率大小的掩码，可以提高资源利用效率，同时保持对关键区域的高分辨率处理。通过引入跨模态多尺度融合模块，将语言引导的像素级特征和区域级特征进行多尺度聚合，可以更好地结合文本信息和图像信息，提高了问题的理解和答案的生成能力。采用了分层逐级解码的方式，将信息从像素级特征到区域级特征再到最终的答案解码，有助于更好地捕捉图像中的细节信息，并将其与问题进行关联，提高了问答的准确性。使用多种损失函数，包括掩码损失、边缘损失、预算约束和文本损失，来综合考虑不同方面的目标，从而更好地训练模型，提高了模型的性能。该方法可以应用于接地视觉问答，为机器理解图像和回答问题提供了一种高效且准确的方法，有潜在的应用于各种领域，如自动驾驶、医疗影像分析、图像检索等。

进一步地，步骤1具体包括：

步骤1.1：首先把从swin-transformer提取ROI对齐的区域特征Z_i进行平均池化得到再结合从BERT提取的问题特征K_i。将/>和K_i输入到cross-modal attention中，这一步可以认为是将问题中的词注意力注入到不同的视觉通道中来引导视觉定位，促进多模态信息互补增强。其中T表示转置操作，经过两次线性变换，具体公式如下：

其中Q_i表示注意力权重；d_i表示和/>向量的长度；/>表示问题特征经过线性变换生成的向量；

步骤1.2：对得到的Q_i进行全局池化运算，得到信息权重被馈送到注意力模块SE-block中，以对用于筛选的视觉信息的不同通道进行加权。然后使用几个卷积和全连通层进行分类，得到不同大小的区域级掩模预测特征F_i。具体公式如下：

式中，代表Flattehen运算，F_ex表示SE-block块模块中的操作，w表示权重；F_ex操作具体公式如下：

其中δ表示sigmoid函数，ρ表示ReLU函数，和/>表示权重矩阵维度。

进一步地，所述步骤2具体包括：

QGDR模块实际上是一个轻量级分类器,旨在从定位的k个不同尺度的候选目标中选择最佳掩码分辨率，以最小的资源成本对接地答案进行准确地定位和分割。QGDR将F_i分为四类区域特征层次结构F_t,F_s,F_m,F_l，从F_t到F_l空间分辨率逐层递增两倍。并通过进行softmax运算输出概率向量ε^k＝[ε¹,…,ε^k]。该概率向量的每个元素表示相应的候选分辨率被选择的概率。QGDR的软输出ε^k应转化为一个单热预测，表示为H＝[h₁,…,h_k]。这个过程可以通过离散采样来完成，然后采用了Gumbel-Softmax进行梯度的反向传播更新QGDR。具体公式如下：

式中，τ是参数；当τ接近0时，Gumbel-softmax接近独热。g_i表示Gumbel分布；ε^k′表示k'个离散概率向量。

进一步地，所述步骤3具体包括：

步骤3.1：图片和问题两种模态信息在经过语言引导的像素级特征模块(PWAM)和语言引导的区域级特征模块(QGDR)的处理后得到跨膜态融合特征和F_i∈R^C ^×H×W。接下来要对这两个模块的输出进行多尺度聚合。由于这两个模块的上采样和ROI池化操作，F_i和P_i之间存在空间不对齐，为了增强边界区域的分割性能，本文设计了一个自适应聚合多尺度特征的跨模态多尺度融合模块FPA。如图1所示FPA包含一个可变形卷积和一个动态卷积。首先F_i经过反卷积(Deconv)进行上采样，然后将F_i与P_i串联起来，将串联的特征通过一个3×3的conv来获得偏移映射，用ΔO表示。最后，用学习到的偏移量o将F_i对准P_i，通过可变形卷积deform conv1调整QGDR的输出F_i的位置，使其更好地与PWAM的输出P_i对齐，具体公式如下：

O_i＝Φ[conv(ρ(F_i)||P_i)] (5)

式中ρ表示Deconv操作，Φ表示Deform conv1操作，||是连接操作。

步骤3.2：经过可变型卷积操作后O_i与P_i相加，然后经过1×1卷积实现输出通道为C。最后通过条件卷积CondConv，其类似于注意力机制，更关注物体的突出部分。跨模态多尺度融合模块FPA被***到swin-transformer解码的不同阶段，它对改进接地答案掩码预测起到了关键作用。具体公式如下：

Y_i＝ψ(conv_1×1(O_i+P_i)) (6)

式中Y_i表示区域特征；ψ代表CondConv操作。

进一步地，所述步骤4具体为：

QGDR由语言引导图像动态地定位图像中的接地答案和为不同聚和阶段提供分配不同分辨率的接地答案掩码。在保证精度的情况下降低了计算资源成本，因此训练动态多尺度模块采用三个损失函数。

步骤4.1：首先是mask损失(掩码损失)，给定一个VQA实例，首先用QGDR预测其不同分辨率的掩码切换状态H＝[h₁,…,h_k]，并通过FPA模块的融合传递到解码端的不同阶段，得到一组K个掩码预测图将掩码损失函数定义如下：

式中N表示N个不同实例，表示第k个预测的接地答案掩码，/>表示其对应的真实接地答案掩码，h_i表示是否选择第k个掩码分辨率作为输出分辨率。/>表示为二进制交叉熵损失。

步骤4.2：第二是边缘损失，对于QGDR产生的掩码进行动态选择，通常会认为使用mask loss的大小来作为掩码质量的衡量标准，但实际上在不同的掩码上产生的mask loss非常接近，很难区分掩码质量。相比之下，不同分辨率的掩码所产生的边缘损失差异较大，可以更好地反映掩码的质量。所以本发明采用边缘损失来衡量掩码质量。给定QGDR的输出F＝[f₁,···,f_k]和不同分辨率的边映射，用表示，边缘损失定义如下表示：

其中，其中表示地面实况答案边缘，该边缘是通过首先在真实接地答案掩码/>上应用拉普拉斯算子来获得软边缘图，然后通过阈值化将其转换为二进制边缘图来生成的。

步骤4.3：QGDR模块通过步骤4.2中的边缘损失进行优化，但会存在一个问题就是模型训练趋于收敛到一个次优解，即所有实例都用最大分辨率的掩码分割，因为该掩码包含了更详细的信息，因此预测损失最小。实际上通过实验证明，并不是所有的样本都需要最大的掩码进行分割。为了避免出现上述问题，提高模型效率和减少计算量，本发明采用了预算约束训练QGDR。具体来说，设C表示所选掩码分辨率的对应计算成本。表示对当前批处理数据计算的期望偏差(E(C))超过目标偏差(以C_t表示)时，在模型中增加一个惩罚。

步骤4.4：得到接地答案分支的总目标函数如下，其中λ₁和λ₂是权衡超参数：

最后，通过元素积将问题特征和视觉特征相结合，通过Softmax函数进行分类。该网络使用文本答案和PWAM的二进制交叉熵损失函数进行训练。

进一步地，所述步骤5具体包括：

加载步骤4中训练好的模型model best，将图像及其对应问题输入到模型中，并输出答案以及相应的评价指标。

本发明的有益效果：本发明提出了一种基于动态双级视觉信息融合的接地视觉问答方法，该方法构建了从像素级特征到区域级特征的多层次直接流，从而促进了多层次特征的互补信息聚合。具体地说，本发明提出了一个以问题为导向的动态区域级模块，可根据问题有效定位区域级对象，并动态选择不同分辨率的遮罩，实现了语言引导对象级别的特征进行多尺度特征融合。此外本发明提出了一种跨模态多尺度融合模块，以图像中的语言为导向，自适应地聚合像素级信息和区域级内容，从而实现来自不同层面的多模态信息的交互与融合，实现了高质量的信息交互，有效地提高了整个模型的准确率。

附图说明

图1为基于动态双级视觉信息融合的接地视觉问答网络框架图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

本发明提供一种基于动态双级视觉信息融合的接地视觉问答方法，通过一个双级多尺度网络构建了接地视觉问答***，即分为语言引导的像素级特征和区域级特征，两种尺度分支结合起来进行最终文本答案和接地答案预测；并提出了一个问题引导的动态区域级特征定位网络，通过问题引导视觉信息定位并自适应的为接地答案分配不同尺寸的掩码，提升对小目标的定位和分割的准确性；除此之外，还设计了一个跨模态聚合模块来融合两种级别的特征，可增强像素级和区域级特征之间的特征融合，以提升对接地答案掩码边缘的分割效果。本发明通过语言引导的自适应双级特征融合网络搭建的接地视觉问答***，可以在回答提问的同时生成答案接地掩码，有效地提高了整个模型的准确率。

实施例1

本实施例以Windows***为开发环境，以Pycharm为开发平台，Python为开发语言，采用本发明的基于动态双级视觉信息融合的接地视觉问答方法，完成针对视障人士拍摄的图片及其相关问题的接地答案预测。

本实施例中，基于动态双级视觉信息融合的视觉问答方法，包括以下步骤：

步骤1：将DDVT网络中Swin-Transformer和BERT编码器的预训练权重加载到如图1所示的接地视觉问答网络中；

步骤2：将训练集中的‘图像-问题-接地答案’对输入到步骤1的接地视觉问答网络中进行训练；

步骤3：将所需要图像以及对应的问题作为输入，加载步骤2训练完保存的网络模型，得到相应的接地答案以及相应的评价指标。本发明使用交并比，即模型预测分割和标签之间的重叠区域除以预测分割和标签之间的联合区域，作为评价指标。它的计算方式可以用公式(16)来表示，其中，S_i和S_u分别代表预测分割答案和真实标签答案。

根据以上步骤，本发明将LXMTRT模型、Mac-Caps模型、UNIFIED模型、DDVT模型以及MCAN等模型进行对比。从表1中可以看出，本发明提出的方法在两个常见的测试集上的准确率基本都优于其他方法。

表1模型在VizWizGroundVQA验证集和VQS测试集的封闭部分上的表现比较

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，该方法包括以下步骤：

步骤1：采用问题引导区域级动态多尺度的方法来对接地答案进行定位和分割，设计语言引导的区域级特征模块QGDR，QGDR由交叉注意力模块和空间注意力模块组成，最终得到分辨率从小到大的区域级掩模预测特征F_i∈F_t,F_s,F_m,F_l，其中F_t,F_s,F_m,F_l为四类区域特征层次结构，从F_t到F_l空间分辨率逐层递增两倍；

步骤2：采用动态方法自适应地为每个定位对象分配适当分辨率大小的掩码，并对资源消耗进行预算限制；QGDR输出四种不同的开关状态，对应四种不同的掩模分辨率，即[14×14，28×28，56×56，112×112]；

步骤3：设计一个跨模态多尺度融合模块FPA，将语言引导的像素级特征模块PWAM和语言引导的区域级特征模块QGDR输出的特征进行多尺度聚合；

步骤5：加载步骤4中的模型，将所需图像及其对应的问题输入到训练完的接地视觉问答模型中，得到相应的接地答案和文本答案。

2.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤1所述问题引导区域级动态多尺度的方法，具体包括：

步骤1.1：首先把从swin-transformer提取ROI对齐的区域特征Z_i进行平均池化得到再结合从BERT提取的问题特征K_i，将/>和K_i输入到cross-modal attention中，其中T表示转置操作，经过两次线性变换，具体公式如下：

步骤1.2：对得到的Q_i进行全局池化运算，得到信息权重被馈送到注意力模块SE-block中，以对用于筛选的视觉信息的不同通道进行加权；然后使用几个卷积和全连通层进行分类，得到不同大小的区域级掩模预测特征F_i，具体公式如下：

式中，代表Flattehen运算，F_ex表示SE-block模块中的操作，w表示权重；

F_ex操作具体公式如下：

3.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤2所述采用动态方法自适应地为每个定位对象分配适当分辨率大小的掩码，具体包括：

QGDR是一个轻量级分类器，其从定位的k个不同尺度的候选目标中选择最佳掩码分辨率，QGDR将F_i分为四类区域特征层次结构F_t,F_s,F_m,F_l，从F_t到F_l空间分辨率逐层递增两倍，并通过进行softmax运算输出概率向量ε^k＝[ε¹,…,ε^k]；概率向量的每个元素表示相应的候选分辨率被选择的概率；QGDR的软输出ε^k转化为一个单热预测，表示为H＝[h₁,…,h_k]，这个过程通过离散采样来完成，然后采用了Gumbel-Softmax进行梯度的反向传播更新QGDR，具体公式如下：

式中，τ是参数；当τ接近0时，Gumbel-softmax接近独热；g_i表示Gumbel分布；ε^k′表示k'个离散概率向量。

4.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，所述步骤3具体包括：

步骤3.1：图片和问题两种模态信息在经过语言引导的像素级特征模块PWAM和语言引导的区域级特征模块QGDR的处理后得到跨膜态融合特征和F_i∈R^C×H×W，接下来对这两个模块的输出进行多尺度聚合；设计一个自适应聚合多尺度特征的跨模态多尺度融合模块FPA，FPA包含一个可变形卷积和一个动态卷积；首先F_i经过反卷积Deconv进行上采样，然后将F_i与P_i串联起来，将串联的特征通过一个3×3的conv来获得偏移映射，用ΔO表示；最后，用学习到的偏移量o将F_i对准P_i，通过可变形卷积deform conv1调整QGDR的输出F_i的位置，使其与PWAM的输出P_i对齐，具体公式如下：

O_i＝Φ[conv(ρ(F_i)|||P_i)] (5)

式中ρ表示Deconv操作，Φ表示deform conv1操作，||是连接操作；

步骤3.2：经过可变型卷积操作后O_i与P_i相加，然后经过1×1卷积实现输出通道为C；最后通过条件卷积CondConv，跨模态多尺度融合模块FPA被***到swin-transformer解码的不同阶段，具体公式如下：

Y_i＝ψ(conv_1×1(O_i+P_i)) (6)

式中Y_i表示区域特征；ψ代表CondConv操作。

5.根据权利要求4所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤4所述掩码损失具体为：给定一个VQA实例，首先用QGDR预测其不同分辨率的掩码切换状态H＝[h₁,…,h_k]，并通过FPA模块的融合传递到解码端的不同阶段，得到一组K个掩码预测图将掩码损失函数定义如下：

式中N表示N个不同实例，表示第k个预测的接地答案掩码，/>表示其对应的真实接地答案掩码，h_i表示是否选择第k个掩码分辨率作为输出分辨率，/>表示为二进制交叉熵损失。

6.根据权利要求5所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤4所述边缘损失具体为：采用边缘损失来衡量掩码质量，给定QGDR的输出F＝[f₁,···,f_k]和不同分辨率的边映射，用表示，边缘损失定义如下表示：

其中，表示地面实况答案边缘，该边缘是通过首先在真实接地答案掩码/>上应用拉普拉斯算子来获得软边缘图，然后通过阈值化将其转换为二进制边缘图来生成的。

7.根据权利要求6所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤4所述预算约束和文本损失具体为：采用预算约束训练QGDR，具体来说，设C表示所选掩码分辨率的对应计算成本，表示对当前批处理数据计算的期望偏差E(C)超过目标偏差C_t时，在模型中增加一个惩罚：

得到接地答案分支的总目标函数如下：其中λ₁和λ₂是权衡超参数：

最后，通过元素积将问题特征和视觉特征相结合，通过Softmax函数进行分类，使用文本答案和PWAM的二进制交叉熵损失函数进行训练。