CN114117159A

CN114117159A - 一种多阶图像特征与问题交互的图像问答方法

Info

Publication number: CN114117159A
Application number: CN202111489978.5A
Authority: CN
Inventors: 田晓琛; 郭贵冰
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-01
Anticipated expiration: 2041-12-08
Also published as: CN114117159B

Abstract

本发明设计一种多阶图像特征与问题交互的图像问答方法，涉及计算机视觉和自然语言处理领域。首先计算问题和图像的交叉注意力，本质是计算问题在图像中相关的区域，降低图像的噪声，进一步提取图像的一阶、二阶和高阶特征，从而，让图像特征中选出跟问题最相关的那部分特征，最后将融合后的特征送到分类器中，预测正确的答案，使模型预测答***率有显著提高。

Description

一种多阶图像特征与问题交互的图像问答方法

技术领域

本发明涉及计算机视觉和自然语言处理领域，尤其涉及一种多阶图像特征与问题交互的图像问答方法。

背景技术

图像问答是将图像和自然语言问题作为输入，并生成自然语言答案作为输出，可以把它看做成多模态学习任务，这使它受到了计算机视觉和自然语言处理(NLP)领域的广泛关注。在过去几年中，图像-文本匹配、图像字幕和图像问答等许多视觉语言任务都取得了显著进展。与其他多模态学习任务相比，图像问答是一项更具挑战性的任务，它可以表示为一个多分类问题，根据一幅图像来预测给定问题的正确答案。除了回答给定的问题，图像问答在教育和盲人援助等实际生活中也有各种应用。

图像问答现有最直接的解决方法是联合嵌入方法，联合嵌入方法(jointembedding)的动机是深度神经网络在计算机视觉和NLP中的进步，使用卷积和递归神经网络(CNN和RNN)来学习共同特征空间嵌入的图像和句子，这允许将它们一起送到预测答案的分类器。

除联合嵌入方法外，还有引入了自下而上和自上而下的注意力机制的方式来学习图像每个对象的注意，而不是对空间网格的注意，该方法也是率先将图像自注意力引入图像问答任务中的。也有提出了一种问题引导的注意方法，将问题映射到视觉空间，并制定了一个可设置的卷积核来搜索图像注意区域。基于堆叠注意力网络的图像问答方法则提出了一种堆叠注意网络来迭代学习注意。最后，还有使用多模态双线性池化方法，将来自图像空间网格的视觉特征与来自问题的文本特征相结合。

数据集使用的是图像问答系列数据集(当前有两个版本，分别是VQAv1和VQAv2)，由于VQAv1中存在语言偏见，其中问题与特定的答案高度相关，而在VQAv2通过收集每个问题产生不同答案的互补图像来缓解这种语言偏见。所以，对于图像问答这个任务，现有方法均是在图像问答2.0自然图像数据集上进行实验。

联合嵌入方法的一个局限性是，当正确答案在图像局部区域时，图像的全局特征可能会丢失关键的信息(例如，“桌子上有什么物体？”)。现有的模型都是采用各种注意力机制来融合图像和文本特征，这些注意力机制只考虑了问题在图像中关键的区域，没有考虑问题自身所产生的作用，即问题中哪些单词对表示这个句子的句意更有作用。除此之外，更重要的一点是现有方法均忽略了图像特征中底层和高层特征所代表的不同信息，而这一点对模型能否正确预测答案也起到了很大的作用。

发明内容

针对现有技术的不足，本发明提出一种多阶图像特征与问题交互的图像问答方法。一种多阶图像特征与问题交互的图像问答方法，具体步骤为：

步骤1：获取图像问答系列VQAv2数据集并对其进行预处理；

利用包含自下而上注意力的Faster-Rcnn模型提取VQAv2数据集中图像的特征X∈R^m×dx，提取到图像中的前m个对象，每个对象通过图像id和每个对象的特征两个属性来表示，其中，每个对象特征用一个d_x维度的向量来表示；

步骤2：计算图像对应问题的自注意力T＝[t₁；...；t_n]∈R^n×dy以及利用门循环单元网络GRU提取问题特征；

首先要通过正则的方式对问题进行预处理，将问题中的特殊符号去掉以及将大写转换成小写；然后使用glove语料库，找到问题中相应单词的特征，将每个单词转换成一个300维的向量；最后对问题做自注意力计算，使问题中的每个单词具有一个权重：T＝[t₁；...；t_n]∈R^n×dy，把它送到门循环网络GRU中，输出一个维度是1024的向量Y表示整个问题的特征；

其中，R表示实数，t_n表示问题中每个单词的特征，n表示单词个数，d_y表示每个单词特征向量的维度；

步骤3：建立Guided-Attention Deep FM模块，即GADF模块，将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分，利用GADF模块对上述步骤1和步骤2得到的图像特征和问题特征进行交叉注意力计算；并提取降噪后图像的一阶、二阶和高阶特征；

步骤3.1：通过引导注意力Guided-Attention对图像特征进行降噪处理，计算问题特征和图像特征的交叉注意力，选出图像中和问题相关度高的区域，得到图像中问题关注的对象，具体为：

首先，用由维度是d_key的查询向量querys，以及维度是d_value的值向量values组成的放缩点积scaled dot-product注意力，将d_key和d_value的维度统一成d；通过计算querys和所有keys的点积，每个点积除以

并用softmax函数获得querys上的注意权值：

attention_output＝Attention(Q，K，V)

其中，Q、K、V分别表示querys、keys、values；

表示k维度的向量，K^T表示querys向量的转置；

进一步提高图像中问题关注的特征的表示能力，引入由h个并联的“头”组成的多头注意，每个头部对应一个独立的点积注意力函数：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，W_i ^Q，W_i ^K，W_i ^V∈R^d×dh，i表示头的个数，W^o∈R^h×db×d，R是实数，h表示头的个数，a_h表示隐藏层的维度，d表示最后输出的维度，head_h表示每个头输出特征；

使用引导注意力Guided-Attention计算交叉注意力时，将预处理的图像特征X∈R^m×dx作为引导注意力Guided-Attention中的X输入，也是上述公式中的Q，问题特征Y作为引导注意力Guided-Attention中的Y输入，问题特征Y来引导图像特征X的注意力学习；最后，经过计算得到图像中问题所关注的对象特征Z∈R^m×dx；

其中，R是实数，m表示图像中对象个数，d_x表示每个对象的向量维度；

步骤3.2：DEEP FM提取降噪后图像的一阶、二阶和高阶特征；

一阶特征只独立考虑图像中每个特征，通过一个矩阵映射提取到它的特征；

二阶特征考虑图像中两两特征之间的交互，利用隐向量内积的方式来表示图像特征的二阶交叉信息，从而得到两两对象之间的关系特征，具体为：

其中，w和v是权重；x是每个图像特征的向量；j₁，j₂表示计数器；d表示特征个数；x_j1，x_j2表示图像中两个独立的特征；v_i，v_j表示图像中两个独立特征的隐向量；<·，·>是两个向量的点积；

高阶特征通过一个多层感知机得到图像的辅助二阶特征，获取更高层的信息，具体为：

y_hight＝σ(W^|H|+1·a^|H|+b^|H|+1)

其中，|H|是层数，σ是激活函数，W是模型的权重，b是第几层的偏置，a是图像中每个对象特征；

步骤4：将提取的一阶、二阶和高阶特征与问题特征进行融合，将融合后的特征送到分类器中，预测图像中问题关注的答案；

首先将一阶、二阶和高阶特征拼接成一个矩阵，用问题特征跟这个矩阵做注意力，从图像特征中选出跟问题最相关的那部分特征，然后再和问题加权求和得到融合后的特征，将其送得分类器中，经过答案矩阵映射，得到预测的答案特征，预测图像中问题关注的答案；

所述分类器为答案出现频率最多的前f个作为候选答案，生成的答案矩阵。

本发明的有益效果：本发明提出的一种多阶图像特征与问题交互的图像问答方法，考虑了图像特征中底层和高层特征所代表的不同信息，从而对模型正确预测答案起到了很大的作用，使模型预测答***率有显著提高。

附图说明

图1本发明实施例流程图。

图2本发明实施例整体模型架构图。

图3本发明实施例引导注意力模块图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明：一种多阶图像特征与问题交互的图像问答方法。

本发明所述的多阶图像特征与问题交互的图像问答方法，旨在多模态特征融合的时候将问题与图像的一阶、二阶和高阶特征结合起来，充分利用图像中底层和高层所代表的不同信息，使融合后的特征更加多样和丰富，从而更加接近正确答案。本次构建的模型基于pytorch1.0框架，Python3.6版本。本发明实施例整体流程图如图1所示，模型构架图如图2，具体为：

步骤1：获取图像问答系列VQAv2数据集并对其进行预处理；

本实施例提取到图像中的前36个对象，每个对象通过图像id和每个对象的特征两个属性来表示，其中，每个对象特征用一个2048维度的向量来表示；本实施例用一个36x2048的矩阵来表示一张图像的特征；

步骤2：计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征；首先要通过正则的方式对问题进行预处理，将问题中的特殊符号去掉以及将大写转换成小写，使问题变得更加整齐(例：“What is in the dog’s mouth？”经过处理后变成“what isin the dog mouth”这样一个整齐的序列)；然后使用glove语料库，找到问题中相应单词的特征，将每个单词转换成一个300维的向量；最后对问题做自注意力计算，使问题中的每个单词具有一个权重：T＝[t₁；...；t_n]∈R^n×dy，把它送到门循环单元GRU中，输出一个维度是1024的向量表示整个问题的特征；

其中，t_n表示问题中每个单词的特征，n表示单词个数，d_y表示每个单词特征向量的维度；

步骤3：建立Guided-Attention Deep FM模块，即GADF模块，对应图2中GADF模块区域，将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分，引导注意力Guided-Attention对应附图2中GADF模块左边，DEEP FM对应附图2中GADF模块右边，利用GADF模块对上述步骤1和步骤2得到的图像特征和问题特征进行交叉注意力计算；并提取降噪后图像的一阶、二阶和高阶特征；

步骤3.1：GADF模块一部分是引导注意力Guided-Attention，如附图3所示，通过引导注意力Guided-Attention对图像特征进行降噪处理，计算问题特征和图像特征的交叉注意力，选出图像中和问题相关度高的区域，得到图像中问题关注的对象，具体为：

并用softmax函数获得querys上的注意权值：

attention_output＝Attention(Q，K，V)

其中，Q、K、V分别表示querys、keys、values；

表示k维度的向量，K^T表示querys向量的转置；

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，W_i ^Q，W_i ^K，W_i ^V∈R^d×dh，i表示头的个数，W^o∈R^h*dh×d，R是实数，h表示头的个数，d_h表示隐藏层的维度，d表示最后输出的维度，head_h表示每个头输出特征；head_b是每个头输出特征的维度；使用引导注意力Guided-Attention时，将预处理好的图像特征

作为附图三中的X输入，也是公式中的Q，问题特征Y作为附图三中的Y输入，根据图三，可知问题特征Y来引导图像特征X的注意力学习。最后，经过计算得到图像中问题所关注的对象特征

步骤3.2：GADF模块另一部分提取降噪后图像的一阶、二阶和高阶特征；

y_hight＝σ(W^|H|+1·a^|H|+b^|H|+1)

首先将一阶、二阶和高阶特征拼接成一个矩阵，用问题特征跟这个矩阵做注意力，使问题从图像特征中选出跟其最相关的那部分特征；然后再和问题加权求和得到融合后的特征，将其送得分类器中，经过答案矩阵映射，得到预测的答案特征；预测图像中问题关注的答案；

所述分类器为答案出现频率最多的前3000个作为候选答案，生成的答案矩阵。

本发明图像问答方法与其他图像问答方法对比结果；

其中准确率有以下四种All、Y/N、Num和Other，分别表示总的准确率、答案类别是yes或no的准确率、答案类别是数字的准确率和答案类别除这两种之外的准确率。

其他三种图像问答方法为：Zichao Yang,Xiaodong He,Jianfeng Gao,Li Deng,and Alex Smola.Stacked attentionnetworks for image questionanswering.In IEEEConference on Computer Vision and Pattern Recognition(CVPR),pages 21–29,2016.(基于叠加注意力网络的图像问答模型)。

Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,Trevor Darrell,and Marcus Rohrbach.Multimodal compactbilinear pooling for visual questionanswering and visual grounding.arXiv preprint arXiv:1606.01847,2016.(基于多模态双线性池化的图像问答模型)。

J.Lu,J.Yang,D.Batra,and D.Parikh.Hierarchicalquestion-image co-attention for visual question answering.In Advances In Neural InformationProcessing Systems,pages 289–297,2016.(基于图像和问题分层联合注意力的图像问答模型)。

Claims

1.一种多阶图像特征与问题交互的图像问答方法，其特征在于，包括以下步骤：

步骤1：获取图像问答系列VQAv2数据集并对其进行预处理，得到图像特征；

步骤2：计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征；

步骤3：建立Guided-Attention Deep FM模块，即GADF模块，将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分，通过引导注意力Guided-Attention对图像特征进行降噪处理，计算问题特征和图像特征的交叉注意力，选出图像中和问题相关度高的区域，得到图像中问题关注的对象；DEEP FM提取降噪后图像的一阶、二阶和高阶特征；

步骤4：将提取的一阶、二阶和高阶特征与问题特征进行融合，将融合后的特征送到分类器中，预测图像中问题关注的答案。

2.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤1中所述的获取图像问答系列VQAv2数据集并对其进行预处理，得到图像特征具体为：

利用包含自下而上注意力的Faster-Rcnn模型提取VQAv2数据集中图像的特征X∈R^m ^×dx，提取到图像中的前m个对象，每个对象通过图像id和每个对象的特征两个属性来表示，其中，每个对象特征用一个d_x维度的向量来表示。

3.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤2中所述的计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征具体为：

其中，R表示实数，t_n表示问题中每个单词的特征，n表示单词个数，d_y表示每个单词特征向量的维度。

4.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤3中所述的引导注意力Guided-Attention具体为：

并用softmax函数获得querys上的注意权值：

attention_output＝Attention(Q，K，V)

其中，Q、K、V分别表示querys、keys、values；

表示k维度的向量，K^T表示querys向量的转置；

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，W_i ^Q，W_i ^K，W_i ^V∈R^d×dh，i表示头的个数，W^o∈R^h×dh×d，R是实数，h表示头的个数，d_h表示隐藏层的维度，d表示最后输出的维度，head_b表示每个头输出特征；

其中，R是实数，m表示图像中对象个数，d_x表示每个对象的向量维度。

5.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤3中所述的DEEP FM具体为：

其中，w和v是权重；x是每个图像特征的向量；j₁,j₂表示计数器；d表示特征个数；x_j1,x_j2表示图像中两个独立的特征；v_i,v_j表示图像中两个独立特征的隐向量；<·,·>是两个向量的点积；

y_hight＝σ(W^|H|+1·a^|H|+b^|H|+1)

其中，|H|是层数，σ是激活函数，W是模型的权重，b是偏置，a是图像中每个对象特征。

6.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤4中所述的将提取的一阶、二阶和高阶特征与问题特征进行融合，将融合后的特征送到分类器中，预测图像中问题关注的答案具体为：

首先将一阶、二阶和高阶特征拼接成一个矩阵，用问题特征跟这个矩阵做注意力，从图像特征中选出跟问题最相关的那部分特征，然后再和问题加权求和得到融合后的特征，将其送得分类器中，经过答案矩阵映射，得到预测的答案特征，预测图像中问题关注的答案。

7.根据权利要求6所述一种多阶图像特征与问题交互的图像问答方法，其特征在于，所述的分类器具体为：

分类器为答案出现频率最多的前f个作为候选答案，生成的答案矩阵。