CN110717431B

CN110717431B - 一种结合多视角注意力机制的细粒度视觉问答方法

Info

Publication number: CN110717431B
Application number: CN201910927585.4A
Authority: CN
Inventors: 彭淑娟; 李磊; 柳欣; 范文涛; 钟必能; 杜吉祥
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2023-03-24
Anticipated expiration: 2039-09-27
Also published as: CN110717431A

Abstract

本发明涉及一种结合多视角注意力机制的细粒度视觉问答方法，充分考虑到问题具体语义的导向作用，提出一种多视角注意力模型，能够有效选择出与当前任务目标(问题)相关的多个显著目标区域，从多个视角学习获取图像和问题文本中与答案有关的区域信息，提取出问题语义引导下的图像中的区域显著性特征，具有更细粒度的特征表达，并对图像中存在多个重要语义表达区域的情况表现，具有较强的刻画能力，增加了多视角注意力模型的有效性和全面性，从而有效加强图像区域显著特征和问题特征的语义关联性，以提升视觉问答的语义理解的准确性和全面性。采用本发明所述的方法进行视觉问答任务，步骤简单、效率高、准确率高，完全可以用于商业，市场前景较佳。

Description

一种结合多视角注意力机制的细粒度视觉问答方法

技术领域

本发明涉及计算机视觉与自然语言处理技术领域，更具体地说，涉及一种结合多视角注意力机制的细粒度视觉问答方法。

背景技术

随着计算机视觉和自然语言处理的快速发展，视觉问答***成为人工智能越来越热门的研究领域之一。视觉问答技术是一项新兴课题，其任务是结合计算机视觉和自然语言处理两个学科领域，把给定的图像和与图像相关的自然语言问题作为输入，生成一个自然语言答案作为输出。视觉问答是人工智能领域重点的应用方向，通过模拟真实世界的情景，视觉问答可以帮助存在视觉障碍的用户进行实时的人机交互。

本质上，视觉问答***被视为是一个分类任务，常用做法是根据已知的图片和问题抽取图片和问题特征，然后通过融合图片特征和问题特征来进行分类获取问答结果。近年来，视觉问答在计算机视觉和自然语言处理领域引起了广泛的关注。由于视觉问答的相对复杂性以及对图像和文本处理的需求，现有的一些方法在准确率上面还有一定的欠缺，还面临着较大的挑战。

在实际应用中，视觉问答***常常面临着图像的高维度和噪声影响，这些噪声会影响算法对答案的预测。因此，有效的视觉问答模型能需要挖掘到图像中与问题语义一致的结构化特征及语义相关性部分进行细粒度预测。

视觉注意力模型是利用计算机模拟人类视觉注意力机制得到一幅图像中最容易引起人们注意的部分，即图像的显著区域。在视觉问答中，大多数使用单一注意力机制模型的方法常常忽略图像结构化语义的区别，并对图像中存在多个重要区域的情况表现有些不足，从而这类方法带来的注意力机制不可避免的会影响视觉问答准确性。

研究发现，当前已有大多数视觉问答方法都是通过问题和整张图片去预测问题语义答案，却没有考虑到问题具体语义的导向作用，因此，这些模型学习到的图像区域特征与问题特征在语义空间上的关联性较弱。

综上，现有技术中，有效的视觉问答方法仍然有待改善。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合多视角注意力机制的细粒度视觉问答方法，可以有效提高视觉语义信息提取的准确度和全面性，并降低冗余数据和噪音数据的影响，从而提升视觉问答***的细粒度识别能力与对复杂问题的判断，并一定程度上提升视觉问答***的准确率与模型的可解释性。

本发明的技术方案如下：

一种结合多视角注意力机制的细粒度视觉问答方法，步骤如下：

1)输入图像，提取图像特征；输入问题文本，提取问题特征；

2)将图像特征、问题特征输入多视角注意力模型，计算图像的注意力权重，通过注意力权重对步骤1)的图像特征进行加权运算，得到图像细粒度特征；

3)将图像细粒度特征与问题特征进行融合，得到融合特征；

4)将融合特征输入分类器，预测得到答案。

作为优选，所述的多视角注意力模型包括上层注意力模型、下层注意力模型，通过上层注意力模型获得单一注意力权重，通过下层注意力模型获得显著性注意力权重，显著性注意力权重体现图像中的不同目标区域对应不同的注意力资源。

作为优选，获得单一注意力权重的方法如下：

输入图像特征、问题特征至上层注意力模型，分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间，利用激活函数ReLu规范化向量；然后利用哈达码乘积融合，再依次输入两层全连接层进行处理学习参数，处理学习后的参数

最后使用softmax函数归一化权值，得到单一注意力权重/>

其中，

为图像特征，/>

为问题特征，

为上层注意力模型待学习的权重参数，K为图像特征的空间区域个数，T为选取的问题特征长度，d为网络层中隐藏神经元的个数，h为该层设置的输出维度，ReLu是神经网络中的激活函数，其具体形式可以表达为f(x)＝max(0,x)。

作为优选，获得显著性注意力权重的方法如下：

输入图像特征、问题特征至下层注意力模型，分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间，再计算关联矩阵C_i＝ReLu(q_i ^TW_bV_i)；其中，

为下层注意力模型待学习的权重参数，/>

为获取的关联矩阵；

将关联矩阵作为特征与问题特征相乘，并与输入的图像特征融合，融合后的参数为

最后使用softmax函数归一化权值，输出显著性注意力权重/>

其中，

为下层注意力模型待学习的权重参数。

作为优选，基于单一注意力权重、显著性注意力权重计算图像的注意力权重，具体如下：

其中，β₁和β₂为上层注意力模型、下层注意力模型的权重比超参数。

作为优选，步骤3)中，将图像细粒度特征与问题特征分别通过非线性层f_v、f_q，在非线性层f_v、f_q中利用激活函数ReLu规范化向量；然后利用哈达码乘积融合，得到融合特征

作为优选，步骤4)中，融合特征通过非线性层f_o，在通过非线性层f_o中利用激活函数ReLu规范化向量；然后使用线性映射w_o来预测答案的候选得分

最后，选取得分更高的输出；

其中，σ是sigmoid激活函数，w_o是待学习的权重参数。

作为优选，sigmoid激活函数将最终得分规范化为(0-1)区间，最后一个阶段作为预测每个候选答案正确性的逻辑回归，其目标函数为

其中，z和k分别覆盖M个训练问题的N个候选答案，s_zk是问题的真实答案。

作为优选，步骤1)中，使用Faster-RCNN标准模型对输入的图像I_i进行特征提取，得到深度表达的图像特征V_i＝FasterRCNN(I_i)。

作为优选，步骤1)中，输入问题文本Q_i，先使用空格和标点将问题文本Q_i分成单词，再通过预训练的GloVe词嵌入方法进行初始化，得到编码后的第i个指定问题句子

其中，x_t ⁽ⁱ⁾表示每个单词在词汇表中的位第t个单词；

然后，将

输入到LSTM网络中，取出最后一层的输出q_i作为/>

的特征表达，得到问题特征q_i。

本发明的有益效果如下：

本发明所述的结合多视角注意力机制的细粒度视觉问答方法，提出一种多视角注意力模型，能够有效选择出与当前任务目标(问题)相关的多个显著目标区域，提取出问题语义引导下的图像中的区域显著性特征，具有更细粒度的特征表达，并对图像中存在多个重要语义表达区域的情况表现，具有较强的刻画能力。

本发明充分考虑到问题具体语义的导向作用，从多个视角来学习获取图像和问题文本中与答案有关的区域信息，增加了多视角注意力模型的有效性和全面性，从而有效加强图像区域显著特征和问题特征的语义关联性，以提升视觉问答的语义理解的准确性和全面性。

采用本发明所述的方法进行视觉问答任务，步骤简单、效率高、准确率高，完全可以用于商业，市场前景较佳。

附图说明

图1是本发明的流程示意图；

图2是多视角注意力模型的示意图；

图3是注意力权重可视化热力图(简单的注意任务)；

图4是注意力权重可视化热力图(任务需要高度集中于图像中的多个位置)；

图5是本发明的多视角注意力模型取得的结果与目前较为先进的方法的对比曲线图；

图6是最终模型性能培训的损失函数的曲线图；

图7是最终模型性能培训的培训验证分数的曲线图。

具体实施方式

以下结合附图及实施例对本发明进行进一步的详细说明。

本发明为了解决现有技术存在的不足，提供一种结合多视角注意力机制的细粒度视觉问答方法。视觉问答可以被视为一种多任务分类问题，每个答案就可以看作为一种分类种类。一般视觉问答***中，使用One-Hot方法对答案进行编码，来获得每个答案对应的One-Hot向量，构成答案向量表。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值，然后每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

如图1所示，本发明所述的结合多视角注意力机制的细粒度视觉问答方法，大致步骤如下：

3)将图像细粒度特征与问题特征进行融合，得到融合特征；

4)将融合特征输入分类器，预测得到答案。

本实施例中，步骤1)中，使用Faster-RCNN标准模型对输入的图像I_i进行特征提取，得到图像特征V_i＝FasterRCNN(I_i)。令K为图像特征的空间区域个数，则图像特征

可以进一步表示成/>

其中，/>

是Faster-RCNN提取的第k个区域特征，d为网络层中隐藏神经元的个数并同时表示输出维度。

步骤1)中，输入问题文本Q_i后，先使用空格和标点将问题文本Q_i分成单词，再通过预训练的GloVe词嵌入方法(Global Vectors for Word Representation)进行初始化，得到第i个指定问题句子

的编码形式，其中，x_t ⁽ⁱ⁾表示每个单词在词汇表中的位第t个单词；

然后，将

输入到LSTM网络中，具体地，使用含有1280个隐藏单元的标准LSTM网络，取出最后一层的输出q_i作为/>

的特征表达，得到问题特征q_i。

然后，针对获取的图像特征V_i以及编码的问题特征q_i，将两种特征输入多视角注意力模型，计算图像的注意力权重。

视觉注意力机制从本质上可以从图像中选择出对当前任务目标更关键的目标区域，从而对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，抑制其他无用信息。在视觉问答任务中，语义表达具有多样性。特别地，有一些问题需要模型理解图像中多个目标对象之间的语义表达。因此，单一视觉注意力模型不能够有效挖掘图像中不同语义对象与问题语义之间的关联性；

为了解决这个问题，本发明提供了一种多视角注意力模型，使用两种不同的注意力机制进行联合学习问题中可以关注到的不同语义的重要区域部分，以获得图像的细粒度注意力特征图。使用多视角注意力模型关注图像得到的图像注意力权重，并利用该权重进行图像特征加权得到累积向量作为最终的图像特征表示，即图像细粒度特征，能够较好地与问题语义进行关联。

如图2所示，所述的多视角注意力模型包括上层注意力模型、下层注意力模型，通过上层注意力模型获得单一注意力权重，通过下层注意力模型获得显著性注意力权重，显著性注意力权重体现图像中的不同目标区域对应不同的注意力资源。

具体地，上层注意力模型中，获得单一注意力权重的方法如下：

输入图像特征、问题特征至上层注意力模型，分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间，利用激活函数ReLu规范化向量；然后利用哈达码乘积(Hardmard product)融合，再依次输入两层全连接层进行处理学习参数，处理学习后的参数

其中，/>

为图像特征，/>

为问题特征，/>

为上层注意力模型待学习的权重参数，K为图像特征的空间区域个数，T为选取的问题特征长度，d为网络层中隐藏神经元的个数，h为该层设置的输出维度，ReLu是神经网络中的激活函数，其具体形式可以表达为f(x)＝max(0,x)；

最后使用softmax函数归一化权值，得到单一注意力权重

考虑单一注意力权重

为softmax权值，如果部分权值数值较大，其余部分势必权值较小。由于一幅图像常常含有多个不同语义，并且这些语义常常在不同区域进行视觉语义表达。单一注意力权重/>

常常会忽略一些具有重要语义的区域信息。为补充上层注意力模型的注意信息的缺失部分，本发明进一步提出了下层注意力模型。下层注意力模型同时兼顾图像与问题语义的关联性，达到问题引导多视角注意力模型的学习机制，增加特征细粒度挖掘能力，本发明通过计算图像与问题特征在语义的相似性来引导图像区域的注意力的学习。

具体地，下层注意力模型中，获得显著性注意力权重的方法如下：

为下层注意力模型待学习的权重参数，/>

为获取的关联矩阵；

最后使用softmax函数归一化权值，输出显著性注意力权重/>

其中，/>

为下层注意力模型待学习的权重参数，参数维度设置通上层注意力模型一致，K为图像特征的空间区域个数，T为选取的问题特征长度，d为网络层中隐藏神经元的个数，h为该层的输出维度，ReLu是神经网络中的激活函数。

基于单一注意力权重、显著性注意力权重计算图像的注意力权重，具体如下：

其中，β₁和β₂为上层注意力模型、下层注意力模型的权重比参数。实际应用中，可以通过调试参数来分配上层注意力模型、下层注意力模型之间的权重，以达到更好的效果。

图像特征V_i可以进一步表示K个图像空间区域特征的集合形式

进一步，将注意力权重a_i与每一个空间区域图像特征相乘加权，从而得到图像细粒度特征

/>

步骤3)中，将图像细粒度特征与问题特征分别通过非线性层f_v、f_q，在非线性层f_v、f_q中利用激活函数ReLu规范化向量；然后利用哈达码乘积融合，得到融合特征

进一步地，视觉问答问题是为一个多标签分类问题，进而，步骤4)中，融合特征通过非线性层f_o，在通过非线性层f_o中利用激活函数ReLu规范化向量；然后使用线性映射w_o来预测答案的候选得分

最后，选取得分更高的输出；

其中，σ是sigmoid激活函数，w_o是待学习的权重参数。

其中，指数z和k分别覆盖M个训练问题的N个候选答案，s_zk是问题的真实答案。

与其他常用的视觉问答利用softmax分类器相比，本发明利用的逻辑回归分类更加有效。Sigmoid函数使用软分数(soft target)作为目标结果，提供了更加丰富的训练信号，可以有效捕捉真实答案中偶尔出现的不确定性。

为了更好的观察注意力模型如何关注到图像的显著区域部分，在获得单一注意力权重、显著性注意力权重的attention map(a^u，a^b)后，使用python中的matplotlib画图库的heatmap函数将注意力map可视化为矩阵热图(matrix heatmap)，如图3、图4所示。

图3、图4是多视角注意力模型分别对2张不同任务图像的上层注意力模型、下层注意力模型的表现图，attention1是上层注意力模型的注意力可视图，attention2是下层注意力模型的注意力可视图。从注意力的热度图可以看出，添加的下层注意力模型能够学习输入图像的不同重要区域。从图3可以看出，对于一个简单的注意任务，上层注意力模型、下层注意力模型都能够在图像中找到正确的位置。然而，在图4中，可以看到，当任务需要高度集中于图像中的多个位置时，下层注意力模型关注到了与上层注意力模型不同的部分，从而提高了多视角注意力模型的准确性，本发明的多视角注意力模型比现有技术的模型具有优势。

测试数据集介绍：VQA v2数据集(Antol S,Agrawal A,Lu J,et al.Vqa:Visualquestion answering[C].Proceedings of the IEEE International Conference onComputer Vision.2015:2425-2433.)是一个大规模的视觉问答数据集，这个数据集中所有的问题和答案都由人为注释。在数据集中有443,757个训练问题，214,354个验证问题和447,793个测试问题。每张图像和三个问题相关，对于每个问题，注释者提供了十个答案。在标准视觉问答任务重，这个数据集中的问题常常分为：Yes/no,Number和other三种类型的问题。

进一步，为验证本发明的有效性，将本发明与2017VQA挑战赛冠军(Anderson P,HeX,Buehler C,et al.Bottom-up and top-down attention for image captioning andvisual question answering.arXiv preprint arXiv:1707.07998,2017.)的结果做了对比，如图5所示，本发明在复现的***码基础上，将本发明的多视角注意力模型替换原来的简单注意力模型，本发明的多视角注意力模型最终评分为64.35％，在准确率的评价与所述论文相比，具有约1.2％的提升。

在实验中一些基本参数设计如下，基本学习率设置为α＝0.0007，在每个LSTM层后随机失活率设置为dropout＝0.3，答案筛选设置N＝3000。全连接层的隐藏神经元设置num_hid＝1024，批训练的数量设置batch_size＝512。单一注意力权重、显著性注意力权重的权重分配为β₁＝0.7，β₂＝0.3。

如图6所示，模型的损失函数值(loss)随着训练周期的增加不断减小收敛的过程；如图7所示，模型准确率随着训练周期的增长分别在训练集与测试集上的表现。

本发明在test-dev情况下与VQA任务中比较有代表性的方法在公开标准数据集VQA v2上的对比，如表1所示。

表1

特别的，将数据以问题类型为标准分为3个种类进行评估，然后计算出总的评估结果。问题种类分别为Y/N是否问题，Number数量问题，Others其他开放性问题。表中的分数是模型针对不同类型的问题回答结果的准确率，数值越大准确率越高。从表中可以看出，本发明的多视角注意力模型对不同任务都达到了较好的效果。

特别的，由于本发明的多视角注意力模型加强细粒度的特征表达，对物体的检测，识别能力提高，在Number这个一类型的评价上较之前的方法有着不错的提升。模型总的准确率评价结果更是优于大部分现存方法的结果。

上述实施例仅是用来说明本发明，而并非用作对本发明的限定。只要是依据本发明的技术实质，对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。