CN114168769A

CN114168769A - 基于gat关系推理的视觉问答方法

Info

Publication number: CN114168769A
Application number: CN202111359601.8A
Authority: CN
Inventors: 缪亚林; 李臻; 童萌; 白宛婷; 李国栋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-11
Anticipated expiration: 2041-11-16
Also published as: CN114168769B

Abstract

本发明公开了基于GAT关系推理的视觉问答方法，具体为：首先，将问题划分为单词以向量化表示，并进行句子特征提取，得到问题特征向量；再使用Faster R‑CNN结合ResNet‑101网络模型获取对象空间坐标和对象类别，BUTD模型利用对象空间坐标和对象类别得到<属性类，对象类>二元组，使用关系解码器获得物体之间的边标签，使用问题引导的图注意力卷积网络动态更新图节点信息，最后将图表示和问题特征进行多模态融合后输入多层感知机中获取答案。对GAT2R模型在数据集上进行了消融实验验证，与基准模型BUTD相比，提高了准确度。

Description

基于GAT关系推理的视觉问答方法

技术领域

本发明属于图像处理技术领域，具体涉及基于GAT关系推理的视觉问答方法。

背景技术

视觉问答(Visual Question Answering,VQA)***的目标是根据图片提供的信息回答问题，因其丰富的应用领域而具有重要的研究意义，由于现有的视觉问答方法侧重于构建新的注意力机制而使得模型越来越复杂，忽略了需要空间推理、语义关系甚至场景理解问题的研究。大多数的VQA***框架主要包括图像编码器、问题编码器、多模态融合和答案预测模块。使用卷积神经网络学习图像表示和循环神经网络学习文本表示，然后将两个表示融合到同一特征空间用于答案预测。在VQA2.0数据集中，涉及一个以上物体的问答对占据了大约70％的比例。因此对VQA这样的多模态任务来说是不够的。

最近视觉问答探索图像更高层次的表示形式，特别是使用对象检测器和基于图的结构来更好地理解图像物体关系。但是其主要存在两个缺点，首先一些模型进行隐式关系推理，如MAC、Murel，这些模型在没有使用显式关系的情况下进行了训练，不能充分利用数据集预定义的语义关系；其次一些模型进行显示关系推理，这些模型使用显式的视觉关系标注，目前方法只处理空间关系而忽略语义关系，如Teney等人首次提出用图结构表示图像和问题文本，在合成图片上进行实验，具有较大的局限性；Will Norcliffe-Brown等使用高斯核选择与节点最相关的K个区域特征进行节点信息更新；于东飞使用简单的全连接图建模物体之间的关系；朱梓豪等人针对基于事实的FVQA问题构造多模态异构图；Li L等人提出ReGAT模型，建立图的隐式和显式关系；Weixin Liang等人将VQA看做是一个完全的答案生成任务。

发明内容

本发明的目的是提供基于GAT关系推理的视觉问答方法，克服了现有视觉问答方法忽略空间推理、语义关系以及场景理解的问题。

本发明所采用的技术方案是，基于GAT关系推理的视觉问答方法，具体按照以下步骤实施：

步骤1，问题嵌入：将问题划分为独立单词，利用Glove词向量模型对单词进行向量化表示，使用双向GRU网络进行句子特征提取，得到问题特征向量Q；

步骤2：场景图生成：使用Faster R-CNN结合ResNet-101网络模型提取图像的区域特征和空间特征，增加属性检测器，获得物体的属性特征，GAT2R模型对图片内对象进行结构化建模，生成全连接场景图，图节点表示图像中的物体，图的边为节点对之间的关系，通过关系解码器获得场景内节点对之间的交互关系；

步骤3：场景图更新：通过图注意力网络学习以问题引导的动态场景图，通过执行注意力操作来突出步骤1产生的词向量和步骤2产生的节点和边的相关性，然后通过图注意力卷积网络更新节点；

步骤4：多模态融合和答案预测：通过求和步骤3产生的场景图信息，并通过最大池化来计算图的全局向量表示，通过一个简单的元素乘积融合问题和图的全局向量表示，并将其输入到全连接层以预测答案。

本发明的特点还在于，

步骤1中，具体为：

步骤1.1：将输入问题根据标点符号和空格，划分为单独的单词；输入的问题转化为单词数组，表示为如下公式：

q＝[q₁，q₂，...，q_N]

其中，N为句子中包含的单词数，q₁，q₂，...，q_N为N个单独的单词，q为单词集合；

步骤1.2：使用Glove词向量模型获得单词向量h，表示为：

h＝[h₁，h₂，...，h_N]

其中，h_N为单词q_N的词向量，h为经过Glove词向量模型训练之后的单词向量集合；

步骤1.3：使用双向GRU网络进行句子特征提取，并在双向GRU的最终输出向量上使用自注意力机制，得到问题特征向量Q。

步骤2中，具体为：

步骤2.1：场景图节点构造；Faster R-CNN结合ResNet-101网络模型是将FasterR-CNN目标检测算法中的骨干网络替换为ResNet-101网络，还增加了一个额外的输出层用来判断对象属性，BUTD模型将对象所在区域平均池化卷积特征与对象类向量连接起来，输入到一个额外的输出层，对于图像内每一个对象边界框都得到<属性类，对象类>这样的二元组，将Faster R-CNN结合ResNet-101网络模型产生的定位信息和BUTD模型产生的二元组拼接在一起就构成了场景图节点；选取置信度最大的前K个物体候选框作为场景图的候选节点；

步骤2.2：场景图边构建，生成场景图G＝{V，E}；

其中，V表示节点集合，即步骤2.1生成的场景图节点集合；E表示这些节点之间的关系集合，考虑了所有边的可能性，边代表了节点之间的各种可能关系，通过一层前馈网络和归一化层将图像中所有对象向量对转换为边向量e_i，j，如下公式所示，所有边向量的集合为E；

e_i，j＝LayerNorm(FeedForward([v_i，v_j]))i，j＝1...K

其中，e_i，j代表节点i和节点j之间的场景图边；v_i，v_j为第i，j的节点，K为节点个数；

步骤2.3：关系解码器；GAT2R通过一个在Visual Genome数据集上预训练的分类网络来学习场景图节点之间的关系；将关系定义为<subject-predicate-object>这样的三元组，每个边向量输入关系解码器，以对其关系标签进行分类。

步骤3中，具体为：

步骤3.1：通过注意力机制来评估每个节点与问题的相关性；节点v_i的注意权重计算公式如下：

α_i＝Softmax(tan h(W₁v_i+W₂Q))i＝1...K

其中，W₁、W₂为要学习的参数，α_i为节点v_i的注意力权重；

步骤3.2：评估边注意力权重，GAT2R模型在问题的引导下，评估关于节点v_i的权重，由邻居节点v_j约束的边e_ji对回答问题的注意力权重，如下公式所示；

β_ji＝Softmax(tanh(W₃v′_j+W₄Q′))i，j＝1...K

其中，v′_j＝W₅[v_j，e_ji]，Q′＝W₆[v_i，Q]，二者均表示向量的拼接操作；W₃、W₄、W₅、W₆为要学习的参数，β_ji为节点v_j、v_i的连接边e_ji的注意力权重；

步骤3.3：使用图注意力网络消息传递框架MPNN更新节点v′_i的特征；图注意力网络可在的卷积操作的每一层根据相邻节点的相关性，汇总来自邻居节点的信息，从而更新每个节点的表示，如下公式所示；

o_i＝ReLU(W₇[m_i，α_iv′_i])

其中，v′_j＝W₅[v_j，e_ji]，N_i是v_i的所有邻居节点，m_i为节点v_i周围的邻居节点对节点v_i的影响参数，W₇为要学习的参数，o_i为更新后的节点特征。

步骤4中，具体为：

步骤4.1：将问题特征Q与全图表示

通过多模态特征融合策略进行融合，获得回答问题的联合特征表示，如下公式所示：

J＝f(O^ε，q；Θ)

其中，f表示多模态融合方法，Θ表示融合模块的可训练参数；

步骤4.2：使用简单的点乘策略实现多模态特征融合，建立视觉和语言之间的双线性细粒度交互；J包含了回答问题的关键图信息，其经过最大池化层和全连接层后获得答案，如下公式所示：

y＝σ(MLP(J′))

其中，J′表示经过最大池化后的联合特征表示。σ表示Sigmoid激活函数。

本发明的有益效果是：针对现有视觉问答方法忽略空间推理、关系甚至场景理解的问题的研究，提出了基于图注意力网络的关系推理模型，构建了基于问题引导的动态场景图，此模型该模型最大特点是构建一个问题引导的动态图，在进行场景图时进行了数据嵌入和场景图关系的生成还有对场景图答案预测，并且选择使用了GQA和VQA2.0两个数据集做了比较，还使用图注意卷积网络更新图节点信息，提高了VQA问题准确度，最后对GAT2R模型在GQA数据集上进行了消融实验验证，在与基准模型BUTD相比有着显著提高，在两个数据集上提高了准确度。

附图说明

图1是在GQA数据集上训练过程中损失值随迭代次数变化图；

图2是在GQA数据集上训练过程中准确率随迭代次数变化图；

图3是VQA2.0测试集中的图片和问题的注意力可视化展示图；

图4是GQA测试集中的图片和问题的注意力可视化展示图；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于GAT关系推理的视觉问答方法，具体按照以下步骤实施：

步骤1，问题嵌入，根据标点符号和空格，将问题划分为独立单词；利用Glove词向量模型对单词进行向量化表示；使用双向门控循环单元提取问题向量表示。同时，为了减少问题噪声对答案预测结果的影响；具体为：

步骤1.1：首先将输入问题根据标点符号和空格，划分为单独的单词；输入的问题转化为单词数组，表示为如下公式：

q＝[q₁，q₂，...，q_N]

步骤1.2：使用Glove词向量模型获得单词向量h，表示为：

h＝[h₁，h₂，...，h_N]

步骤1.3：为了更好地捕捉长文本特征，使用双向GRU网络进行句子特征提取，并在双向GRU的最终输出向量上使用自注意力机制，得到问题特征向量Q；

步骤2：场景图生成；使用Faster R-CNN结合ResNet-101网络模型提取图像的区域特征和空间特征，增加了属性检测器，获得物体的属性特征，GAT2R模型对图片内对象进行结构化建模，生成全连接场景图，其中图节点表示图像中的物体，图的边为节点对之间的关系。通过关系解码器获得场景内节点对之间的交互关系；具体为：

步骤2.1：场景图节点构造；Faster R-CNN结合ResNet-101网络模型可以同时定位和对象分类。Faster R-CNN结合ResNet-101网络模型是将Faster R-CNN目标检测算法中的骨干网络替换为ResNet-101网络，加入ResNet-101可以保证网络层数增加的同时精度有所提升。网络模型除了定位和预测对象类外，还增加了一个额外的输出层用来判断对象属性，BUTD模型将对象所在区域平均池化卷积特征与对象类向量连接起来，输入到一个额外的输出层，对于图像内每一个对象边界框都得到<属性类，对象类>这样的二元组。将Faster R-CNN结合ResNet-101网络模型产生的定位信息和BUTD模型产生的二元组拼接在一起就构成了场景图节点。因此，场景图节点不仅包含对象自身的区域属性特征二元组，还包含物体在图像上的空间位置信息。

加入ResNet-101可以保证网络层数增加的同时精度有所提升。网络除了预测对象类外，还增加了一个额外的训练来输出区域属性，BUTD模型将区域平均池化卷积特征与真值对象类向量连接起来，输入到一个额外的输出层，对于图像内每一个边界框都得到<属性类，对象类>这样的二元组，选取置信度最大的前K个物体候选框作为场景图的候选节点。

场景图节点不仅包含对象自身的区域属性特征二元组，还包含物体在图像上的空间位置信息。通过这些信息，GAT2R模型可以更加充分地学习图像中物体之间的语义关系和空间位置关系，在遇到相关问题时模型能更加准确地进行关系推理，从而预测出正确的答案。

步骤2.2：场景图边构建，生成场景图G＝{V，E}；

其中V表示节点集合，即步骤2.1生成的场景图节点集合。E表示这些节点之间的关系集合，考虑了所有边的可能性，边代表了节点之间的各种可能关系，如动作关系“eating”、“sitting”、“holding”等，空间关系如“left”、“on”等，比较关系“bigger”等。通过一层前馈网络和归一化层将图像中所有对象向量对转换为边向量e_i，j，如公式所示，所有边向量的集合为E；

e_i，j＝LayerNorm(FeedForward([v_i，v_j]))i，j＝1...K

其中，e_i，j代表节点i和节点j之间的场景图边；注意，e_i，j和e_j，i并不相同。v_i，v_j为第i，j的节点，K为节点个数。

步骤2.3：关系解码器。GAT2R通过一个在Visual Genome数据集上预训练的分类网络来学习场景图节点之间的关系。将关系定义为<subject-predicate-object>这样的三元组，每个边向量输入关系解码器，以对其关系标签进行分类，

步骤3：场景图更新；通过图注意力网络学习以问题引导的动态场景图。对于VQA任务，不同的节点和边对回答问题的贡献是不一样的，模型通过过滤掉与问题无关的节点和关系来学习一个与问题相关的场景图，而不是将所有关系和节点赋予相同的权重。通过执行注意力操作来突出步骤1产生的词向量和步骤2产生的节点和边的相关性，然后通过图注意力卷积网络更新节点。

步骤3.1：首先通过注意力机制来评估每个节点与问题的相关性。节点v_i的注意权重计算公式如下：

α_i＝Softmax(tan h(W₁v_i+W₂Q))i＝1...K

其中，W₁、W₂为要学习的参数，Q为经过自注意力机制得到的问题特征向量，K为节点的个数，α_i为节点v_i的注意力权重。

步骤3.2：评估边注意力权重，GAT2R模型在问题的引导下，评估关于节点v_i的注意力权重，由邻居节点v_j约束的边e_ji对回答问题的注意力权重，如下公式所示；

β_ji＝Softmax(tan h(W₃v′_j+W₄Q′))i，j＝1...K

其中，v′_j＝W₅[v_j，e_ji]，Q′＝W₆[v_i，Q]，二者均表示向量的拼接操作。W₃、W₄、W₅、W₆为要学习的参数，K为节点的个数，β_ji为节点v_j、v_i的连接边e_ji的注意力权重。

步骤3.3：使用图注意力网络消息传递框架MPNN更新节点v′_i的特征；图注意力网络可在的卷积操作的每一层根据相邻节点的相关性，汇总来自邻居节点的信息，从而更新每个节点的表示，如下公式所示。

o_i＝ReLU(W₇[m_i，α_iv′_i])

其中，β_ji为节点v_j、v_i的连接边e_ji的注意力权重，v′_j＝W₅[v_j，e_ji]，N_i是v_i的所有邻居节点，m_i为节点v_i周围的邻居节点对节点v_i的影响参数，W₇为要学习的参数，α_i为节点v_i的注意力权重，o_i为更新后的节点特征。

经过图卷积后，场景图节点特征包含了回答问题的所有关键信息。

步骤4：多模态融合和答案预测。通过求和步骤3产生的场景图信息，并通过最大池化来计算图的全局向量表示。该向量可以被认为是图的高度非线性压缩。通过一个简单的元素乘积融合问题和图的全局向量表示，并将其输入到全连接层以预测答案。

步骤4.1：将问题特征Q与全图表示

J＝f(O^ε，q；Θ)

其中，f表示多模态融合方法，Θ表示融合模块的可训练参数。

步骤4.2：使用简单的点乘策略实现多模态特征融合，建立视觉和语言之间的双线性细粒度交互。J包含了回答问题的关键图信息，其经过最大池化层和全连接层后获得答案，如下公式所示：

y＝σ(MLP(J′))

其中，J′表示经过最大池化后的联合特征表示。σ表示Sigmoid激活函数；

将答案生成看作是一个多分类问题。Sigmoid将每个候选答案的概率控制在(0，1)之间。其次，选取软分数作为训练目标，可以弥补数据集中的一些不确定性，例如问题不明确、人类注释者对答案存在分歧等。选择最大概率对应的候选答案作为模型预测答案。

模拟实验及实验结果表征

1.数据集：视觉问答用于关系推理的数据集主要包含两类，一类是人工合成数据，数据集包含少量的对象类和属性，所含物体都是简单的3D形状，另一类数据集图片来自真实场景，具有更大的语义空间，推理更具挑战性，代表数据集是GQA，最终选择GQA和VQA2.0两个大规模公开数据集上评估GAT2R模型性能，GQA包含来自Visual Genome数据集的113，018张真实世界的图像，包含22，669，678个问题，涵盖了广泛的推理能力。GQA有明确的2690个类，包括对象、属性和关系。每个图像会被形式化地表示为场景图，场景图中每个节点表示一个对象，将它链接到一个指定其位置和大小的边界框，每个对象大约1-3个属性进行标记，对象由关系边连接，边可表示动作(动词)、空间关系(介词)和比较词。该数据集含有3097个单词和1878个可能的答案，包含1740个对象、620个属性和330个关系。覆盖了VQA数据集中88.8％和70.6％的问题和答案，证实了其广泛性。同时，GQA问题中51.6％系语义推理问题，22.4％是空间关系推理问题，而VQA2.0中仅包含19.5％的语义关系推理问题，8％的空间推理问题。

评价指标：将VQA视为多分类问题，在GQA和VQA2.0数据集上使用相同的评估标准。使用一种投票机制来计算模型的准确率。

在数据集中，模型预测的答案至少与3个标注者保持一致，方可认为模型预测正确。

2.实验环境：本发明模型开发语言为Python 3.7，使用深度学习开发框架PyTorch，版本为1.5.0。实验中选取置信度最大的K个候选物体作为图节点，其中K＝36，每个区域物体特征向量维度为2048。此外，对于每个候选物体，也得到一个4维的空间坐标，因此特征拼接后节点维度为2052。GAT2R模型使用双向GRU来编码问题特征，其中词向量维度为300，隐层状态维度为1024。将GQA数据集中所有问题长度保持为25，VQA2.0数据集长度为14，所有的激活函数使用ReLU。在输入层之后和输出层之间使用p＝0.5的dropout，以防止网络过拟合。训练样本在每个epoch均被随机shuffle，batch大小设置为32，使用交叉熵作为损失函数，模型使用Adam梯度下降算法。初始学习率设为0.001，GAT2R模型在迭代10k次后，每迭代4k次将学习率降为之前的1/10，实验在迭代了22k次后停止训练；

3.实验结果：

(1)在GQA数据集上训练过程中损失(loss)值随迭代次数(k)变化图如图1所示，可得到：随着迭代次数的增加，模型训练loss值稳定下降。如图2所示，随着迭代次数的增加，模型验证集准确率趋于稳定，在GQA数据集上达到了最佳性能。

将GAT2R模型在GQA数据集上训练的最好结果，与其他先进模型进行比较，如表1所示；

表1 GAT2R模型与其他模型比较结果

其中Global Prior模型和Local Prior表示模型根据问题类型返回数据集中最常见的答案。二者的区别在于，相较于Global Prior，Local Prior会进一步思考了问题，MAC模型是当前表现突出的隐式关系推理模型，该模型通过将问题分解为多个基于注意力的推理步骤来推理答案，每个步骤都由一个新的循环记忆、注意和合成(MAC)单元来执行，旨在实现明确的多阶段推理。MAC模型在CLEVR数据集上取得了巨大成功。表中Human表示人类在GQA数据集上的测验结果。

GAT2R模型比基准模型CNN+LSTM总体准确率提高了7.9％，与先进的BUTD模型相比准确率提升了4.71％，和先进的隐式关系推理模型MAC相比，GAT2R模型在整体准确性上同样略胜一筹。主要原因是BUTD模型主要贡献是使用物体检测模型进行图像特征提取，没有实现显式关系推理。而MAC模型是隐式关系推理模型，没有充分运用数据集中预定义的物体关系。

为表明GAT2R模型各部分的作用和贡献，最终对GAT2R模型在GQA数据集上进行了消融实验，从实验结果可以看到使用图注意力网络有选择地融合邻居节点特征，模型准确率有效提高了0.28％，Q+Graph模型仍然比MAC模型准确率高出0.11％。同时，由于本模型使用了和BUTD模型相同的图像特征提取方式，可以看到，GAT2R模型采用简单的级联融合方式效果要比BUTD模型采用逐元素乘积的方式准确率高出4.56％，充分说明了图注意力网络在视觉问答关系推理任务中的巨大潜力。

为了进一步证明提出的基于图注意力网络关系推理模型的有效性与泛化性，在VQA2.0数据集上也将本发明模型与其他方法进行对比，如表2所示。其中Prior、CNN+LSTM、MCB与MUTAN模型在Language-only模型只接受问题作为输入，通过与该模型对比，可充分证明各VQA模型在答案预测时都不同程度地成功运用了图像输入。

表2 GAT2R模型在VQA2.0标准测试集上的结果

根据上表的实验结果来看，基于图注意力网络的关系推理模型准确度在各类问题上都有不同程度的提升。与Language-only模型相比，模型准确率提高了23.78％，与CNN+LSTM基准模型相比，GAT2R模型的准确率提升了13.82％，与MCB模型相比提高了5.77％，与先进的BUTD模型相比模型性能提高了2.77％，与MUTAN模型相比GAT2R性能提升了1.66％，充分证明了图注意力网络关系推理模型的有效性。另外，可以看到，特别是在“Other”列，此模型比BUTD模型准确率提升了3.5％，与MUTAN模型相比准确率高出了2.85％。其主要原因是GAT2R模型使用图结构对图像内物体进行关系建模，这使得模型在类似空间推理、语义关系推理等其他问题上准确率有了较大提升。

图注意力网络关系推理模型对图像内物体进行关系建模，保留了图像内物体的空间关系、语义关系，有利于跨模态的显式关系推理。鉴于GAT2R模型在GQA和VQA2.0数据集上的良好表现，GAT2R模型仍然可以推广到其他VQA数据集，尽管提高可能没有GQA明显，本文推测这可能是因为其他VQA数据集中推理问题的比例比GQA小得多。

基于图注意力网络的关系推理模型，随机选取了VQA2.0和GQA测试集当中的一些图片和问题进行注意力可视化展示。如图3及图4所示，图片上方为模型输入的问题，左侧为原始图片，右侧为经过模型注意力可视化后的图片，图片下方分别为数据集真值答案和模型预测的答案。

本发明提出基于图注意力网络的关系推理模型(GAT2R)，该模型首先将图像建模为显式场景图，接着利用图注意力网络更新图信息，进而和问题特征进行融合获得答案，具体来说，使用Faster R-CNN结合ResNet-101网络模型获取对象空间坐标和对象类别，BUTD模型利用对象空间坐标和对象类别得到<属性类，对象类>二元组，不仅关注物体之间的语义关系，还对物体之间的空间关系进行建模。使用关系解码器获得物体之间的边标签，由于图注意力网络允许为同一邻域内节点分配不同的权重，因此使用问题引导的图注意力卷积网络动态更新图节点信息。最后将图表示和问题特征进行多模态融合后输入多层感知机中获取答案。

Claims

1.基于GAT关系推理的视觉问答方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的基于GAT关系推理的视觉问答方法，其特征在于，所述步骤1中，具体为：

q＝[q₁，q₂，...，q_N]

步骤1.2：使用Glove词向量模型获得单词向量h，表示为：

h＝[h₁，h₂，...，h_N]

3.根据权利要求1所述的基于GAT关系推理的视觉问答方法，其特征在于，所述步骤2中，具体为：

步骤2.1：场景图节点构造；Faster R-CNN结合ResNet-101网络模型是将Faster R-CNN目标检测算法中的骨干网络替换为ResNet-101网络，还增加了一个额外的输出层用来判断对象属性，BUTD模型将对象所在区域平均池化卷积特征与对象类向量连接起来，输入到一个额外的输出层，对于图像内每一个对象边界框都得到＜属性类，对象类>这样的二元组，将Faster R-CNN结合ResNet-101网络模型产生的定位信息和BUTD模型产生的二元组拼接在一起就构成了场景图节点；选取置信度最大的前K个物体候选框作为场景图的候选节点；

步骤2.2：场景图边构建，生成场景图G＝{V，E}；

e_i，j＝LayerNorm(FeedForward([v_i，v_j]))i，j＝1…K

4.根据权利要求3所述的基于GAT关系推理的视觉问答方法，其特征在于，所述步骤3中，具体为：

α_i＝Softmax(tan h(W₁v_i+W₂Q))i＝1…K

β_ji＝Softmax(tan h(W₃v′_j+W₄Q′))i，j＝1…K

o_i＝ReLU(W₇[m_i，α_iv′_i])

5.根据权利要求4所述的基于GAT关系推理的视觉问答方法，其特征在于，所述步骤4中，具体为：

步骤4.1：将问题特征Q与全图表示

J＝f(O^ε，q；Θ)

y＝σ(MLP(J′))

其中，J′表示经过最大池化后的联合特征表示；σ表示Sigmoid激活函数。