CN110889340A

CN110889340A - 一种基于迭代注意力机制的视觉问答模型

Info

Publication number: CN110889340A
Application number: CN201911099046.2A
Authority: CN
Inventors: 颜丙旭; 刘杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-03-17

Abstract

本发明公开了一种基于迭代注意力机制的视觉问答模型，包括三个步骤：步骤S1，构建双重注意力机制；步骤S2，迭代模型内部结构；步骤S3，答案预测；本发明使用VGGNet提取图像的特征；将问题和答案用双向LSTM方式编码；把第一部分和第二部分的结果作为输入即以图片特征向量和问题特征向量作为输入，首先两个向量分别加入注意力机制，经过计算后得到两个注意力特征向量，再进行融合得到新的图片和问题特征向量；迭代进行第三部分工作内容降低关注区域粒度，得到最后图片和问题特征向量；利用上述步骤中得到的图片和问题的特征向量预测答案分布。本发明的有益效果是：关注点在问题上，且关注区域精确，预测答案准确。

Description

一种基于迭代注意力机制的视觉问答模型

技术领域

本发明涉及到基于计算机的视觉技术领域，具体是一种基于迭代注意力机制的视觉问答模型。

背景技术

视觉问答(VQA)的关键解决方案存在于如何提取和融合从输入图像和问题中提取的视觉和语言特征；现有方法的通用框架是，视觉和语言特征在是在初始步骤从图像和问题中独立提取的，而在以后的步骤中将它们融合在一起来计算和预测；在早期研究中，研究人员采用了简单的融合方法，例如视觉和语言特征的连接、求和、乘积，然后将其馈入完全连接的层以预测答案。

到目前为止，VQA在文献中的所有关注模型都集中在视觉注意的问题上，而没有关注问题上；考虑一下这样一个问题“how many cats are in this image？”和“how manycats can you see in this image？”的问题；它们具有相同的含义，这两个问题基本上由“howmany cats”就可以确定，可见使用“howmany cats”的模型比使用与答案无关单词的模型更健壮。

此外，最近提出的大多数视觉问答模型都基于神经网络；一种常用的方法是使用卷积神经网络(CNN)提取全局图像特征向量，并使用长短期记忆网络(LSTM)将相应的问题编码为特征向量，然后将它们进行处理并预测答案；尽管这些方法已经有了比较好的结果，但是当这些答案与图像中的一些细粒度区域相关时，这些模型通常无法给出精确答案。

上述不足可简化为两点：

①现有关注模型的关注点都集中在视觉上，而没有在问题上

②利用注意力机制时，关注区域不精确，尤其对一些细粒度区域；

③上述不足，造成预测问题的答案不够准确。

所以现有的技术需要一种关注点在问题上，且关注区域精确，预测答案准确的一种基于迭代注意力机制的视觉问答模型。

发明内容

本发明的目的在于提供一种基于迭代注意力机制的视觉问答模型，以解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于迭代注意力机制的视觉问答模型，包括以下步骤：

步骤S1：构建双重注意力机制；

步骤S2：迭代模型内部结构，即每次图像和问题的融合方法；

步骤S3：答案预测。

作为本发明进一步的方案：所述步骤S1包括：

首先，利用VggNet提取图像特征，考虑到后边用到迭代模型，令其为Q_l，利用Bi-LSTM对问题编码令其为V_l,创建两个注意力图，Q_l和V_l的计算公式如下：

以上A_Ql和B_Vl的每一行包含单个注意图；

将维特征向量

和

投影到多个低维空间；令低维空间数量为d_h(≡d/h)为特征向量维度；用

和

表示线性投影；第i个空间的投影特征矩阵为：

用softmax函数通过按列和按行归一化，在每个矩阵创建注意力图，公式如下；

本发明使用乘法(或点积)注意力时，如下所述，多个特征的平均融合相当于求注意力图的平均值，公式如下：

本发明使用乘积注意力来获取问题和图像的特征表示

和

公式如下：

以上

与V_l的大小相同即d×T，

与Q_l的大小相同即d×N。

作为本发明进一步的方案：所述步骤S2包括：

在计算特征表示

和

之后，在矩阵

的第n列存储与第n个问题单词相关的整个图像的表示，即第n个单词的注意力特征向量；接着，通过级联将第n列向量

与第n个问题单词向量

融合，形成二维向量

将连接后的向量通过单层网络投射会d维度空间，再通过ReLU激活函数和残差连接；公式如下：

其中

和

是学习权重和偏置项；当n(n＝1,…,N)个单词都参与运算后得出

类似的，将第t个图像区域的表示v_lt与以第t个图像区域相关的整个疑问词的表示

串联起来，投影到d维空间，公式如下：

其中，

和

是学习权重和偏置项；当t(t＝1,…,T)个区域都参与运算后得出

作为本发明进一步的方案：所述步骤S3包括：

本发明用迭代模型的最后一次输出Q_L和V_L来预测答案分布；由于它们包含了N个问题词和T个图像区域的表示，本发明首先对它们进行自注意力机制，以获得整个问题和图像的聚合表示；针对Q_L的操作如下：

计算“分数”，s_qL1,…,s_qLN分别是q_L1,…,q_LN的分数，通过在隐藏层中应用具有双层MLP来实现；

用softmax进行归一化，得出权重

使用

公式计算聚合表示；

使用相同的方法得到V_L的权重矩阵

和聚合表示

用MLP计算预定义答案的分数，这是最近研究中广泛使用的方法，公式如下：

与现有技术相比，本发明的有益效果是：

本发明针对现有视觉问答模型未对问题单词采取注意力机制来排除无关单词的干扰，以及利用注意力机制时，关注区域不精确，创新性的构建了双重注意力机制以及迭代模型用以在问题上利用注意力机制并降低关注区域粒度；具体思想是，先每个问题单词对应的图像区域上生成注意力特征向量，并对每个图像区域对应问题单词上生成注意力特征向量；然后，它通过ReLU和残差连接的单层网络执行注意力特征向量的计算、多模式表示的连接及其转换；这些计算被封装到我们称为迭代注意机制模型中，该模型考虑了所有图像区域和所有问题单词之间的交互，可以迭代形成层次结构，实现图像与问题之间的多步交互以降低关注区域粒度，最终获得更准确的关注区域及关注单词，再进行答案预测；通过实验证明该模型提高了预测答***性。

附图说明

图1是本发明一种基于迭代注意力机制的视觉问答模型的步骤图。

图2是本发明一种基于迭代注意力机制的视觉问答模型的流程效果图。

图3是本发明一种基于迭代注意力机制的视觉问答模型的步骤S1示意图。

图4是本发明一种基于迭代注意力机制的视觉问答模型的步骤S2示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～4，本发明实施例中，一种基于迭代注意力机制的视觉问答模型，包括以下步骤：