CN110222770B

CN110222770B - 一种基于组合关系注意力网络的视觉问答方法

Info

Publication number: CN110222770B
Application number: CN201910496302.5A
Authority: CN
Inventors: 杨阳; 汪政; 彭亮
Original assignee: Chengdu Aohaichuan Technology Co ltd
Current assignee: Chengdu Aohaichuan Technology Co ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2023-06-02
Anticipated expiration: 2039-06-10
Also published as: CN110222770A

Abstract

本发明公开了一种基于组合关系注意力网络的视觉问答方法，针对现有视觉问答方法只能提取简单视觉关系的问题，创新性地构建了自适应的关系注意力模块，用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义，增强本发明在回答问题时的推理能力。同时，针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题，我们先分别提取目标的图像特征和位置(关系)特征，将目标图像特征的提取独立于目标关系特征的提取，然后在问句的指导下融合这两种特征，从而将两种特征很好地融合在一起。通过充分准确提取视觉关系，以及图像特征和关系特征的很好融合，提高了预测问题的答***性。

Description

一种基于组合关系注意力网络的视觉问答方法

技术领域

本发明属于视觉问答(Visual Question Answering，简称VQA)技术领域，更为具体地讲，涉及一种基于组合关系注意力网络的视觉问答方法。

背景技术

现有技术中，视觉问答(VQA)主要分为两个步骤：1)理解图像和文本问题的内容，提取图像特征和问题特征；2)融合图像特征和问题特征，得到多模态的特征表示，然后通过softmax分类器预测问题的答案。其中，注意力机制(Attention)通过关注与问题相关的图像区域和问题中的关键词，从而达到更好地理解图像和问题内容的目的。

在特征融合方面，目前多基于双线性网络(Bilinear Network)进行，在一定程度上能很好地结合图像特征和问题特征。

在视觉关系推理方面，目前的大量工作主要是利用图像的区域特征构建视觉图谱。在视觉图谱中，节点代表图像的区域，边代表图像区域之间的关系。然后利用图卷积网络(Graph Convolutional Network，简称GCN)处理构建的视觉图谱，进行关系推理。

现有技术的视觉问答方法存在以下问题：

1、现有的视觉问答方法只能获取简单的视觉关系，这些视觉关系在回答复杂的文本问题时是不充分的；

2、现有的视觉问答方法利用目标的视觉关系特征更新目标的图像特征，这种方式不能很好地融合图像中目标的图像特征和关系特征。

上述不足，造成预测问题的答案不够准确。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于组合关系注意力网络的视觉问答方法，以提高预测问题的答***性。

为实现上述发明目的，本发明基于组合关系注意力网络的视觉问答方法，其特征在于，包括以下步骤：

(1)、构建目标注意力机制

首先，利用从每一张图像中提取M个目标的图像特征(为行向量)，图像特征的维度为d_o，M个目标的图像特征按行放置，构成图像特征矩阵V^o，

表示实数矩阵，然后将每一个目标的图像特征与问题的特征融合，得到多模态的特征矩阵A，

之后，将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重，每一个权重代表着对应的目标与问句的相关性，权重越大证明对应的目标在回答问题时的贡献越大；最后所有目标的图像特征按照各自的权重进行相加，得到图像的图像特征v^o，

(2)、构建关系注意力模块

根据目标的重要性，选择前k^b和k^t个目标分别用于二元关系和三元关系的编码，同时，串联图像中目标的图像特征和目标的位置特征作为关系编码特征，其中：

在二元关系编码中，先结合问句特征与关系编码特征，生成两个中间表征

和/>

其中，d_h是中间层的维度，然后利用点积的操作，生成图像目标两两之间的二元关系：

其中，

为第i个目标与第j个目标的关系向量，/>

是中间表征/>

的第i行，

是中间表征/>

的第j行；将第i个目标与所有第j个目标的关系向量/>

j＝1,2,...,k^b，按行放置，得到二元关系矩阵/>

这样得到k^b个k^b行d_h列的二元关系矩阵

视觉关系注意力机制表示为：

其中，

是权重矩阵，/>

是训练参数，T表示转置，将/>

按行放置，得到权重矩阵p^b，/>

这样得到二元关系特征v^b：

其中，

为权重矩阵p^b的第i行第j列的元素值，/>

是维度为d_h的行向量；

在三元关系编码中，先结合问句特征与关系编码特征，生成三个中间表征

和/>

然后利用点积的操作，生成三个图像目标之间的三元关系：

其中，

为第i个目标、第j个目标以及第g个目标的关系向量，/>

是中间表征

的第i行，/>

是中间表征/>

的第j行，/>

是中间表征/>

的第g行；将第i个目标、第j个目标与所有第g个目标的关系向量/>

按行放置，得到二元关系矩阵/>

这样得到k^t组，每组k^t个k^t行d_h列的二元关系矩阵/>

视觉关系注意力机制表示为：

其中，

是权重矩阵，/>

是训练参数，T表示转置，将/>

j＝1,2,...,k^t按行放置，得到权重矩阵/>

将k^t权重矩阵/>

依次放置，得到三维权重矩阵/>

这样得到三元关系特征v^t：

其中，

为三维权重矩阵p^t的第i页、第j行，第g列的元素值，/>

是维度为d_h的行向量；

(3)、答案预测

在问句特征v^q的指导下，将图像特征向量v^o与二元关系特征v^b、三元关系特征v^t进行融合：

其中v^f是融合的多模态特征，W₄和W₅是训练参数；

之后将多模态特征v^f输入softmax分类层，得到候选答案的概率，然后选择概率最大的候选答案作为预测答案。

本发明的目的是这样实现的。

本发明针对现有视觉问答方法只能提取简单视觉关系的问题，创新性地构建了自适应的关系注意力模块，用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义，增强本发明在回答问题时的推理能力。同时，针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题，我们先分别提取目标的图像特征和位置(关系)特征，将目标图像特征的提取独立于目标关系特征的提取，然后在问句的指导下融合这两种特征，从而将两种特征很好地融合在一起。通过充分准确提取视觉关系，以及图像特征和关系特征的很好融合，提高了预测问题的答***性。

附图说明

图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图；

图2是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式的原理示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图。

在本实施例中，本发明基于组合关系注意力网络的视觉问答方法，包括以下步骤：结合图1对本发明进行详细描述。

步骤S1：构建目标注意力机制

首先，我们利用Faster-RCNN(快速区域卷积神经网络)+ResNet(残差网络)模型从每一张图像中提取M个目标的图像特征，每个图像特征为一行向量，图像特征的维度为d_o，M个目标的图像特征按行放置，构成图像特征矩阵V^o，

表示实数矩阵；然后，将每一个目标的图像特征与问题的特征融合，得到多模态的特征矩阵A，/>

再后，将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重，每一个权重代表着对应的目标与问句的相关性，权重越大证明对应的目标在回答问题时的贡献越大；最后，所有目标的图像特征按照各自的权重进行相加，得到图像的图像特征v^o，/>

该过程用如下公式表示：

p^o＝softmax(W₁A^T) (1)

其中，

是学习的参数，T表示转置，/>

是目标的权重向量，

和/>

分别是第i个目标的图像特征和权重，softmax为归一化指数函数。

步骤S2：构建关系注意力模块

在视觉关系编码中，我们只关注那些与重要目标相关的关系。所以根据目标的重要性，选择前k^b和k^t个目标分别用于二元关系和三元关系的编码，同时，串联图像中目标的图像特征和目标的位置特征作为关系编码特征，其中：

和/>

其中，

为第i个目标与第j个目标的关系向量，/>

是中间表征/>

的第i行，

是中间表征/>

的第j行；将第i个目标与所有第j个目标的关系向量/>

按行放置，得到二元关系矩阵/>

这样得到k^b个k^b行d_h列的二元关系矩阵/>

视觉关系注意力机制表示为：

其中，

是权重矩阵，/>

是训练参数，T表示转置，将/>

按行放置，得到权重矩阵p^b，/>

这样得到二元关系特征v^b：

其中，

为权重矩阵p^b的第i行第j列的元素值，/>

是维度为d_h的行向量；/>

和/>

然后利用点积的操作，生成三个图像目标之间的三元关系：

其中，

为第i个目标、第j个目标以及第g个目标的关系向量，/>

是中间表征

的第i行，/>

是中间表征/>

的第j行，/>

是中间表征/>

按行放置，得到二元关系矩阵/>

这样得到k^t组，每组k^t个k^t行d_h列的二元关系矩阵/>

视觉关系注意力机制表示为：

其中，

是权重矩阵，/>

是训练参数，T表示转置，将/>

按行放置，得到权重矩阵/>

将k^t权重矩阵/>

依次放置，得到三维权重矩阵/>

这样得到三元关系特征v^t：

其中，

为三维权重矩阵p^t的第i页、第j行，第g列的元素值，/>

是维度为d_h的行向量。

在关系编码的过程中，本发明创新性地进行二元关系和更为复杂的三元关系编码，这能很好地解决现有方法只能提取简单视觉关系的问题。另外，本发明使用注意力机制，能很好地提取更为精细和准确的关系特征。

步骤S3：答案预测

现有方法大多利用目标的关系特征来更新目标的图像特征，然而这样并不能将这两种特征很好地融合。本发明提出将目标的图像特征的提取独立于目标的关系特征的提取，在问句特征v^q的指导下，将图像特征向量v^o与二元关系特征v^b、三元关系特征v^t进行融合，这样便很好地解决了这个问题。该过程用如下公式表示：

其中v^f是融合的多模态特征，W₄和W₅是训练参数；

在本实施例中，选用交叉熵函数作为损失函数进行训练参数的更新，其公式如下：

其中

是第i个候选答案的预测概率，/>

是真实答案的预测概率。/>

实例

在本实施例中，在两个大型的基准数据集VQA-1.0，VQA-2.0上测试本发明的效果，从实验的效果可以可知，本发明基于组合关系注意力网络的视觉问答方法优于现有技术的最高水平方法。

VQA-1.0数据集上的测试结果：

表1

其中test-dev和test-std是两个测试数据集。Y/N代表是否(yes/no)问题类型的准确率，Num代表数量(number)类型的准确率，Other代表其他(other)类型的准确率，Overall代表所有问题的准确率。从表1可以看出本发明能在test-std上将总体预测准确率由67.97％提升到69.28％。

VQA-2.0数据集上的测试结果：

表2

从表2可以看出，本发明能在test-std上将总体预测准确率由68.41％提升到68.92％。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。