CN110134774B

CN110134774B - 一种基于注意力决策的图像视觉问答模型、方法和***

Info

Publication number: CN110134774B
Application number: CN201910355026.0A
Authority: CN
Inventors: 陈进才; 张胜; 卢萍; 赵伟; 马亚雄; 王少兵; 黄佳宝
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-02-09
Anticipated expiration: 2039-04-29
Also published as: CN110134774A

Abstract

本发明公开了一种基于注意力决策的图像视觉问答模型、方法和***，属于开放式图像视觉问答领域。包括：信息融合模块，用于在k＝1时，融合全局图像特征g和问题特征向量q，得到融合特征向量u_k；在k＝2,…,K时，融合特征向量u_k‑1和图像特征向量

得到融合特征向量u_k；注意力决策模块，用于接收融合特征向量u_k，决策出注意力框L_k，并发送给特征抽取池化模块；特征抽取池化模块，用于接收空间图像特征v和注意力框L_k‑1，得到图像特征向量

答案推理模块，用于接收融合特征向量u_K，推理出问题答案。本发明利用强化学习，学习特征选择的决策过程，可以自适应的选择与问题相关的视觉特征。可以端到端的训练，让学习到的特征更加具有问题针对性。

Description

一种基于注意力决策的图像视觉问答模型、方法和***

技术领域

本发明属于开放式图像视觉问答领域，更具体地，涉及一种基于注意力决策的图像视觉问答模型、方法和***。

背景技术

深度学习的发展推动了许多高层次的人工智能任务的研究，例如，视觉问答(Visual question answering，VQA)。图像视觉问答是输入一张视觉图像和一个与图像内容相关的开放式自然语言问题，智能***通过识别理解图像与问题来自行输出自然语言答案。视觉问答可以进行自动量化评估，可以有效跟踪任务的发展。因为关于图片的问题往往倾向于寻找特定的视觉信息，因此对于许多问题，答案仅仅包含一到三个单词，可以通过正确回答问题的数量评估视觉问答算法。图1给出了大多数基于深度学习的视觉问答模型，它主要包括以下四个模块：(1)视觉信息提取模块：一般使用深度卷积神经网络CNN，代表的模型有AlexNet，VGGNet，GoogLeNet和ResNet等；(2)问题分析模块：一般使用深度循环神经网络RNN、长短期记忆网络、门控循环单元和卷积神经网络；(3)多模态信息融合模块：常用的方法有按位加，按位乘，链接和双线性池化等；(4)答案推理模块：一般使用多层感知机。

视觉问答任务中要根据问题在图像中的相关区域找到对应的答案，因此问题引导的图像注意力机制(Attention mechanism)是解决视觉问答任务的重要方法。注意力机制的主要目标是通过使用局部图像特征，并允许模型对不同区域的特征赋予不同的重要性来解决问题。

现有技术都采用的“软注意力”(soft attention)方法，为图像中的每一个区域分配一个权重。但是图像中有一些区域和问题无关，这些区域的权重应该被设置为零，而“软注意力”方法分配的权重很难收敛到零。因此会引入一些与问题无关的噪声信息，影响最后答案的决策。另一方面，一些方法为了基于对象语义推理答案，会使用预训练的图像目标检测方法检测图像中的对象，并获得这些对象的特征向量。然后使用软注意力机制为每一个对象分配一个注意力权重。但是这种多阶段处理方法不能端到端训练(end to endtrain)，导致对象特征不具有问题针对性。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有技术与问题无关的视觉特征影响答案推理、学习到的对象特征不具有问题针对性的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种基于注意力决策的图像视觉问答模型，所述模型包括：

视觉信息提取模块，用于提取图像I的全局图像特征g和空间图像特征v，全局图像特征g发送给信息融合模块，空间图像特征v发送给特征抽取池化模块；

问题分析模块，用于提取问题Q的问题特征向量q，并发送给信息融合模块；

信息融合模块，用于在k＝1时，接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q，得到融合特征向量u_k；或者，在k＝2,…,K时，接收并融合特征向量u_k-1和来自特征抽取池化模块的图像特征向量

得到融合特征向量u_k；在k＝1…,K-1时，融合特征向量u_k发送给注意力决策模块，在k＝K时，融合特征向量u_k发送给答案推理模块，其中，k表示融合次数，K表示融合总次数；

注意力决策模块，用于接收来自信息融合模块的融合特征向量u_k，决策出注意力框L_k，并发送给特征抽取池化模块；

特征抽取池化模块，用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框L_k，得到图像特征向量

答案推理模块，用于接收来自信息融合模块的融合特征向量u_K，推理出问题Q的答案。

具体地，所述融合特征向量u_k通过以下方式获得：

其中，FC₁、FC₂和FC₃为全连接神经网络，运算符[,]表示连接两个向量。

具体地，所述决策出注意力框L_k，具体如下：

h_agent,k+1＝RNN(h_agent,k,u_k)

x′＝FC₄(h_agent,k+1)

y′＝FC₅(h_agent,k+1)

a′＝FC₆(h_agent,k+1)

b′＝FC₇(h_agent,k+1)

其中，h_agent,k为第k次决策时内部历史状态，h_agent,0为零向量，RNN为循环神经网络，FC₄、FC₅、FC₆和FC₇为全连接神经网络，

和

为均满足均值为0、方差为1正态分布的随机数，(x′,y′)为加噪前决策出注意力框位置，(a′,b′)为加噪前决策出注意力框长宽，(x,y)为加噪后决策出注意力框位置，(a,b)为加噪后决策出注意力框长宽。

具体地，在空间图像特征v中，以(x,y)为中心，选择长为a宽为b的矩形区域的特征，再对其进行池化操作，得到一维图像特征向量

具体地，利用强化学习的方法学习自适应的注意力决策过程。

第二方面，本发明实施例提供了一种基于注意力决策的图像视觉问答方法，该方法包括以下步骤：

S1.使用p个训练样本训练如第一方面所述的基于注意力决策的图像视觉问答模型，比较训练样本的推理答案与该训练样本的标签是否相同，若相同，则该训练样本每次注意得到的分数均为1，否则，均为0；

S2.基于r_ij构建损失函数L，以损失函数L为目标函数，优化网络参数，得到训练后的基于注意力决策的图像视觉问答模型，r_ij为第j个样本第i次注意得到的分数，j＝1,…,p，i＝1,…,K；

S3.将待测图像I和问题Q输入训练好的基于注意力决策的图像视觉问答模型，得到最终答案。

具体地，利用批量随机梯度下降优化。

具体地，所述损失函数L的计算公式如下：

其中，log(π_θ(x,y,a,b))表示计算状态为h_agent,i+1、决策为(x,y,a,b)时的损失。

第三方面，本发明实施例提供了一种基于注意力决策的图像视觉问答***，该***采用上述第二方面所述的基于注意力决策的图像视觉问答方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述第二方面所述的基于注意力决策的图像视觉问答方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1.本发明利用强化学习，学习特征选择的决策过程，可以自适应的选择与问题相关的视觉特征。将图像上的注意力变化调整过程看作一个序列化决策过程，也就是连续的选择图像区域特征，然后融合这些特征，推出答案。可以端到端的训练，让学习到的特征更加具有问题针对性。

2.本发明每次选择图像上一个与问题相关的区域，记录这个区域的信息，忽略与问题无关的信息，可以有效的排除干扰信息。

附图说明

图1为现有技术中的基于深度学习的视觉问答模型结构示意图；

图2为本发明实施例提供的一种基于强化学习的图像视觉问答模型结构示意图；

图3为本发明实施例提供的特征抽取池化过程示意图；

图4为本发明实施例提供的一种基于强化学习的图像视觉问答方法流程图；

图5为本发明实施例提供的注意力决策过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图2所示，一种基于注意力决策的图像视觉问答模型，所述模型包括：

注意力决策模块，用于接收来自信息融合模块的融合特征向量u_k，决策出注意力框，并发送给特征抽取池化模块；

特征抽取池化模块，用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框，得到图像特征向量

1.视觉信息提取模块

本发明中，视觉信息提取模块采用卷积神经网络提取图像I的全局图像特征g和空间图像特征v。

对输入图像进行预处理，将输入图像I统一为具有3个通道，大小为244*244的图像I′。

卷积神经网络特征层数越深越具有类别鉴别能力，并且卷积层输出的特征向量保留了空间分布信息。因此，提取卷积神经网络最后一个卷积层的特征图v^d×m×n和最后一个全连接层的特征g作为图像特征。

g＝CNN_fc(I′)

v^d×m×n＝CNN_conv(I′)

其中，d表示卷积核的个数，m×n表示图像特征图空间尺寸。本发明实施例优选VGG16，m＝n＝14，d＝2048。

2.问题分析模块

本发明中，问题分析模块采用glove词嵌入和门控循环单元网络，提取问题Q的问题特征向量q。

首先将问题中的每一个单词进行one-hot编码成c_i，如果长度大于N，则删除超出的部分，长度不足，使用空(null)填充到指定的长度。本发明实施例优选N＝14。

Q′＝{c₁,c₂,c₃,…,c_N}

使用预训练的glove 300词向量，将每个单词的one-hot编码转化为300维的词向量得到Q_we。

Q_we＝WE(Q)＝{w₁,w₂,…,w_N}∈R^N×300

其中，WE表示将单词转化为词向量的函数，w_i是每个词对应的词向量。

将w_i按照先后顺序输入到门控循环单元网络(Gated Recurrent Unit,GRU)中，得到问题编码向量q。

q＝GRU(Q_we)

3.信息融合模块

本发明中，信息融合模块由全连接神经网络FC₁、FC₂和FC₃组成，它们的激活函数是ReLu函数，但是权重参数有区别。全连接层的作用是对数据进行非线性映射，提取抽象特征。此处，k＝1，FC₁处理全局图像特征g，FC₂处理问题特征向量q；k＞1，FC₁处理图像特征向量，FC₂处理融合特征向量；FC₃将两个输入特征融合得到融合特征。

其中，运算符[,]表示连接两个向量。

4.注意力决策模块

本发明中，注意力决策模块采用循环神经网络RNN、FC₄、FC₅、FC₆和FC₇，决策出注意力框位置(x,y)和长宽(a,b)。h_agent,0为零向量。

h_agent,k+1＝RNN(h_agent,k,u_k)

其中，h_agent,k为当前内部历史状态。

x′＝FC₄(h_agent,k+1)

y′＝FC₅(h_agent,k+1)

a′＝FC₆(h_agent,k+1)

b′＝FC₇(h_agent,k+1)

其中，FC₄、FC₅、FC₆和FC₇激活函数是双曲正切激活函数(tanh)，但是权重参数有区别。

x＝x′+φ₁

y＝y′+φ₂

a＝a′+φ₃

b＝b′+φ₄

φ₁、φ₂、φ₃和φ₄为均满足均值为0，方差为1的正态分布的随机数。为决策的结果添加随机噪声，增加模型的搜索能力，有助于搜索到最优解。-1≤x≤1,-1≤y≤1,0≤a≤1,0≤b≤1。

5.特征抽取池化模块

本发明中，特征抽取池化模块根据融合特征向量u_k从空间图像特征v中选择图像特征向量

如图3所示，在空间图像特征v^2048×14×14中，以(x,y)为中心，选择长为a宽为b的矩形区域的特征，再对其进行均值池化操作，得到一维的特征向量。特征获取操作如下：

v^2048×a×b＝selector(v^2048×m×n,x,y,a,b)

其中，AP(Average pooling)表示均值池化操作。

6.答案推理模块

本发明中，答案推理模块采用MLP(Multi-layer perceptron，Multi-layerperceptron)推理出问题Q的答案。

推理过程如下：

h＝FC₉(FC₈(u₃))

其中，h是候选答案分数向量，i是候选答案的索引，h_i是向量h中第i个分数，

是所有答案中分数最大答案的索引，模型根据索引

在候选答案集合找到对应的答案。使用多层感知机进行答案推理。多层感知机包含FC₈和FC₉两个全连接层。FC₈的激活函数是ReLu，FC₉不包括激活函数，只采用线性映射部分。

利用强化学习的方法学习自适应的注意力决策过程。首先环境给出了当前用于推理答案的融合特征。智能体根据当前的融合特征，判断还需要补充哪些视觉信息，也就是给出下一步需要到哪个位置获取视觉信息。环境在得到位置之后，根据位置在空间特征中抽取出对应位置的视觉信息，将其与当前的融合信息再次融合得到融合特征，再次将其给智能体。迭代数次后，将使用最后的融合特征推理答案。如果答案正确，则给予这次决策1的奖励，否则奖励为0。智能体根据奖励的情况，改变注意力决策的策略。

环境(Enviroment)：空间图像特征、特征抽取池化模块和信息融合模块。

智能体(Agent)：注意力决策模块。

状态(State)：融合特征。

动作(Action)：注意力框的位置(x,y)以及长a、宽b。

策略(Policy)：从当前融合特征到注意力框的位置(x,y)以及长a、宽b的映射过程。决策函数π_θ为计算注意力的过程，θ是函数的参数。

奖赏(Reward)：奖励函数

当融合特征能正确的推理出答案时，r_i为1,否则，r_i为0。

关于图像的问题，一般需要多次调整注意位置才能精确的找到回答问题的一系列信息。这个过程可以看作一个序列化决策过程，也就是连续的选择图像区域特征，然后融合这些特征，推出答案。本发明使用强化学习方法，学习图像上注意力位置决策过程。每次选择图像上一个与问题相关的区域，记录这个区域的信息。

如图4所示，一种基于注意力决策的图像视觉问答方法，该方法包括以下步骤：

S1.使用p个训练样本训练基于注意力决策的图像视觉问答模型，每个样本训练经历K次注意力决策得到推理答案，比较推理答案与该训练样本的标签是否相同，若相同，则K次注意得到的分数均为1，否则，均为0；

S2.以损失函数L为目标函数，利用批量随机梯度下降优化方式优化网络参数，得到训练后的基于强化学习的图像视觉问答模型；

其中，log(π_θ(x,y,a,b))表示计算状态为h_agent,i+1、决策为(x,y,a,b)时的损失，r_ij为第j个样本第i次注意得到的分数。

S3.将待测图像I和问题Q输入训练好的基于强化学习的图像视觉问答模型，得到最终答案。

训练样本的标签代表真实答案。如果位置框选中的信息与问题无关，那么得到的答案必然是错误的，因此，得到的奖励少，下一次选中该位置的概率减小，因此，在此机制之下，与问题无关的信息会更少参与计算。

如图5所示，输入的图像I是一个打棒球的运动员的场景，输入的问题Q是“what isthe player’s number？”。回答问题时，注意力的变化过程。针对“what is the player’snumber？”，模型首先定位到运动员，然后定位到运动员的球衣号码，最后给出答案“22”。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于注意力决策的图像视觉问答模型，其特征在于，所述模型包括：

视觉信息提取模块，用于提取图像I的全局图像特征g和空间图像特征v，将全局图像特征g发送给信息融合模块，将空间图像特征v发送给特征抽取池化模块；

信息融合模块，用于在k＝1时，接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q，得到融合特征向量u₁；或者，在k＝2，…，K时，接收并融合特征向量u_k-1和来自特征抽取池化模块的图像特征向量

得到融合特征向量u_k；在k＝1…，K-1时，融合特征向量u_k发送给注意力决策模块，在k＝K时，融合特征向量u_k发送给答案推理模块；

特征抽取池化模块，用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框L_k，从空间图像特征v中选择注意力框L_k区域的特征再进行均值池化操作，得到图像特征向量

作为第k+1次迭代信息融合模块的输入；

答案推理模块，用于接收来自信息融合模块的融合特征向量u_K，推理出问题Q的答案；

其中，k表示迭代次数，初值为1，K表示迭代总次数。

2.如权利要求1所述的模型，其特征在于，所述融合特征向量u_k通过以下方式获得：

其中，FC₁、FC₂和FC₃为全连接神经网络，运算符[，]表示连接两个向量。

3.如权利要求1所述的模型，其特征在于，所述决策出注意力框L_k，具体如下：

h_agent，k+1＝RNN(h_agent，k，u_k)

x′＝FC₄(h_agent，k+1)

y′＝FC₅(h_agent，k+1)

a′＝FC₆(h_agent，k+1)

b′＝FC₇(h_agent，k+1)

其中，h_agent，k为第k次迭代时内部历史状态，h_agent，0为零向量，RNN为循环神经网络，FC₄、FC₅、FC₆和FC₇为全连接神经网络，

和

为均满足均值为0、方差为1正态分布的随机数，(x′，y′)为加噪前决策出注意力框位置，(a′，b′)为加噪前决策出注意力框长宽，(x，y)为加噪后决策出注意力框位置，(a，b)为加噪后决策出注意力框长宽。

4.如权利要求3所述的模型，其特征在于，在空间图像特征v中，以(x，y)为中心，选择长为a宽为b的矩形区域的特征，再对其进行池化操作，得到一维图像特征向量

5.如权利要求1至4任一项所述的模型，其特征在于，利用强化学习的方法学习自适应的注意力决策过程。

6.一种基于注意力决策的图像视觉问答方法，其特征在于，该方法包括以下步骤：

S1.使用p个训练样本训练如权利要求1至5任一项所述的基于注意力决策的图像视觉问答模型，比较训练样本的推理答案与该训练样本的标签是否相同，若相同，则该训练样本每次迭代得到的分数均为1，否则，均为0；

S2.基于r_kj构建损失函数L，以L为目标函数，优化网络参数，得到训练后的基于注意力决策的图像视觉问答模型，r_kj为第j个样本第k次迭代得到的分数，j＝1，…，p，k＝1，…，K；

7.如权利要求6所述的方法，其特征在于，利用批量随机梯度下降优化。

8.如权利要求6所述的方法，其特征在于，所述损失函数L的计算公式如下：

其中，log(π_θ(x，y，a，b))表示计算状态为h_agent，k+1、决策为(x，y，a，b)时的损失。

9.一种基于注意力决策的图像视觉问答***，其特征在于，该***采用如权利要求6-8任一项所述的基于注意力决策的图像视觉问答方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求6-8任一项所述的基于注意力决策的图像视觉问答方法。