CN110134774B - 一种基于注意力决策的图像视觉问答模型、方法和*** - Google Patents

一种基于注意力决策的图像视觉问答模型、方法和*** Download PDF

Info

Publication number
CN110134774B
CN110134774B CN201910355026.0A CN201910355026A CN110134774B CN 110134774 B CN110134774 B CN 110134774B CN 201910355026 A CN201910355026 A CN 201910355026A CN 110134774 B CN110134774 B CN 110134774B
Authority
CN
China
Prior art keywords
attention
module
image
decision
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910355026.0A
Other languages
English (en)
Other versions
CN110134774A (zh
Inventor
陈进才
张胜
卢萍
赵伟
马亚雄
王少兵
黄佳宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910355026.0A priority Critical patent/CN110134774B/zh
Publication of CN110134774A publication Critical patent/CN110134774A/zh
Application granted granted Critical
Publication of CN110134774B publication Critical patent/CN110134774B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力决策的图像视觉问答模型、方法和***,属于开放式图像视觉问答领域。包括:信息融合模块,用于在k=1时,融合全局图像特征g和问题特征向量q,得到融合特征向量uk;在k=2,…,K时,融合特征向量uk‑1和图像特征向量
Figure DDA0002045122600000011
得到融合特征向量uk;注意力决策模块,用于接收融合特征向量uk,决策出注意力框Lk,并发送给特征抽取池化模块;特征抽取池化模块,用于接收空间图像特征v和注意力框Lk‑1,得到图像特征向量
Figure DDA0002045122600000012
答案推理模块,用于接收融合特征向量uK,推理出问题答案。本发明利用强化学习,学习特征选择的决策过程,可以自适应的选择与问题相关的视觉特征。可以端到端的训练,让学习到的特征更加具有问题针对性。

Description

一种基于注意力决策的图像视觉问答模型、方法和***
技术领域
本发明属于开放式图像视觉问答领域,更具体地,涉及一种基于注意力决策的图像视觉问答模型、方法和***。
背景技术
深度学习的发展推动了许多高层次的人工智能任务的研究,例如,视觉问答(Visual question answering,VQA)。图像视觉问答是输入一张视觉图像和一个与图像内容相关的开放式自然语言问题,智能***通过识别理解图像与问题来自行输出自然语言答案。视觉问答可以进行自动量化评估,可以有效跟踪任务的发展。因为关于图片的问题往往倾向于寻找特定的视觉信息,因此对于许多问题,答案仅仅包含一到三个单词,可以通过正确回答问题的数量评估视觉问答算法。图1给出了大多数基于深度学习的视觉问答模型,它主要包括以下四个模块:(1)视觉信息提取模块:一般使用深度卷积神经网络CNN,代表的模型有AlexNet,VGGNet,GoogLeNet和ResNet等;(2)问题分析模块:一般使用深度循环神经网络RNN、长短期记忆网络、门控循环单元和卷积神经网络;(3)多模态信息融合模块:常用的方法有按位加,按位乘,链接和双线性池化等;(4)答案推理模块:一般使用多层感知机。
视觉问答任务中要根据问题在图像中的相关区域找到对应的答案,因此问题引导的图像注意力机制(Attention mechanism)是解决视觉问答任务的重要方法。注意力机制的主要目标是通过使用局部图像特征,并允许模型对不同区域的特征赋予不同的重要性来解决问题。
现有技术都采用的“软注意力”(soft attention)方法,为图像中的每一个区域分配一个权重。但是图像中有一些区域和问题无关,这些区域的权重应该被设置为零,而“软注意力”方法分配的权重很难收敛到零。因此会引入一些与问题无关的噪声信息,影响最后答案的决策。另一方面,一些方法为了基于对象语义推理答案,会使用预训练的图像目标检测方法检测图像中的对象,并获得这些对象的特征向量。然后使用软注意力机制为每一个对象分配一个注意力权重。但是这种多阶段处理方法不能端到端训练(end to endtrain),导致对象特征不具有问题针对性。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术与问题无关的视觉特征影响答案推理、学习到的对象特征不具有问题针对性的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种基于注意力决策的图像视觉问答模型,所述模型包括:
视觉信息提取模块,用于提取图像I的全局图像特征g和空间图像特征v,全局图像特征g发送给信息融合模块,空间图像特征v发送给特征抽取池化模块;
问题分析模块,用于提取问题Q的问题特征向量q,并发送给信息融合模块;
信息融合模块,用于在k=1时,接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q,得到融合特征向量uk;或者,在k=2,…,K时,接收并融合特征向量uk-1和来自特征抽取池化模块的图像特征向量
Figure BDA0002045122580000021
得到融合特征向量uk;在k=1…,K-1时,融合特征向量uk发送给注意力决策模块,在k=K时,融合特征向量uk发送给答案推理模块,其中,k表示融合次数,K表示融合总次数;
注意力决策模块,用于接收来自信息融合模块的融合特征向量uk,决策出注意力框Lk,并发送给特征抽取池化模块;
特征抽取池化模块,用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框Lk,得到图像特征向量
Figure BDA0002045122580000031
答案推理模块,用于接收来自信息融合模块的融合特征向量uK,推理出问题Q的答案。
具体地,所述融合特征向量uk通过以下方式获得:
Figure BDA0002045122580000032
其中,FC1、FC2和FC3为全连接神经网络,运算符[,]表示连接两个向量。
具体地,所述决策出注意力框Lk,具体如下:
hagent,k+1=RNN(hagent,k,uk)
x′=FC4(hagent,k+1)
y′=FC5(hagent,k+1)
a′=FC6(hagent,k+1)
b′=FC7(hagent,k+1)
Figure BDA0002045122580000033
Figure BDA0002045122580000034
Figure BDA0002045122580000035
Figure BDA0002045122580000036
其中,hagent,k为第k次决策时内部历史状态,hagent,0为零向量,RNN为循环神经网络,FC4、FC5、FC6和FC7为全连接神经网络,
Figure BDA0002045122580000037
Figure BDA0002045122580000038
为均满足均值为0、方差为1正态分布的随机数,(x′,y′)为加噪前决策出注意力框位置,(a′,b′)为加噪前决策出注意力框长宽,(x,y)为加噪后决策出注意力框位置,(a,b)为加噪后决策出注意力框长宽。
具体地,在空间图像特征v中,以(x,y)为中心,选择长为a宽为b的矩形区域的特征,再对其进行池化操作,得到一维图像特征向量
Figure BDA0002045122580000039
具体地,利用强化学习的方法学习自适应的注意力决策过程。
第二方面,本发明实施例提供了一种基于注意力决策的图像视觉问答方法,该方法包括以下步骤:
S1.使用p个训练样本训练如第一方面所述的基于注意力决策的图像视觉问答模型,比较训练样本的推理答案与该训练样本的标签是否相同,若相同,则该训练样本每次注意得到的分数均为1,否则,均为0;
S2.基于rij构建损失函数L,以损失函数L为目标函数,优化网络参数,得到训练后的基于注意力决策的图像视觉问答模型,rij为第j个样本第i次注意得到的分数,j=1,…,p,i=1,…,K;
S3.将待测图像I和问题Q输入训练好的基于注意力决策的图像视觉问答模型,得到最终答案。
具体地,利用批量随机梯度下降优化。
具体地,所述损失函数L的计算公式如下:
Figure BDA0002045122580000041
Figure BDA0002045122580000042
其中,log(πθ(x,y,a,b))表示计算状态为hagent,i+1、决策为(x,y,a,b)时的损失。
第三方面,本发明实施例提供了一种基于注意力决策的图像视觉问答***,该***采用上述第二方面所述的基于注意力决策的图像视觉问答方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第二方面所述的基于注意力决策的图像视觉问答方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明利用强化学习,学习特征选择的决策过程,可以自适应的选择与问题相关的视觉特征。将图像上的注意力变化调整过程看作一个序列化决策过程,也就是连续的选择图像区域特征,然后融合这些特征,推出答案。可以端到端的训练,让学习到的特征更加具有问题针对性。
2.本发明每次选择图像上一个与问题相关的区域,记录这个区域的信息,忽略与问题无关的信息,可以有效的排除干扰信息。
附图说明
图1为现有技术中的基于深度学习的视觉问答模型结构示意图;
图2为本发明实施例提供的一种基于强化学习的图像视觉问答模型结构示意图;
图3为本发明实施例提供的特征抽取池化过程示意图;
图4为本发明实施例提供的一种基于强化学习的图像视觉问答方法流程图;
图5为本发明实施例提供的注意力决策过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图2所示,一种基于注意力决策的图像视觉问答模型,所述模型包括:
视觉信息提取模块,用于提取图像I的全局图像特征g和空间图像特征v,全局图像特征g发送给信息融合模块,空间图像特征v发送给特征抽取池化模块;
问题分析模块,用于提取问题Q的问题特征向量q,并发送给信息融合模块;
信息融合模块,用于在k=1时,接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q,得到融合特征向量uk;或者,在k=2,…,K时,接收并融合特征向量uk-1和来自特征抽取池化模块的图像特征向量
Figure BDA0002045122580000061
得到融合特征向量uk;在k=1…,K-1时,融合特征向量uk发送给注意力决策模块,在k=K时,融合特征向量uk发送给答案推理模块,其中,k表示融合次数,K表示融合总次数;
注意力决策模块,用于接收来自信息融合模块的融合特征向量uk,决策出注意力框,并发送给特征抽取池化模块;
特征抽取池化模块,用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框,得到图像特征向量
Figure BDA0002045122580000062
答案推理模块,用于接收来自信息融合模块的融合特征向量uK,推理出问题Q的答案。
1.视觉信息提取模块
本发明中,视觉信息提取模块采用卷积神经网络提取图像I的全局图像特征g和空间图像特征v。
对输入图像进行预处理,将输入图像I统一为具有3个通道,大小为244*244的图像I′。
卷积神经网络特征层数越深越具有类别鉴别能力,并且卷积层输出的特征向量保留了空间分布信息。因此,提取卷积神经网络最后一个卷积层的特征图vd×m×n和最后一个全连接层的特征g作为图像特征。
g=CNNfc(I′)
vd×m×n=CNNconv(I′)
其中,d表示卷积核的个数,m×n表示图像特征图空间尺寸。本发明实施例优选VGG16,m=n=14,d=2048。
2.问题分析模块
本发明中,问题分析模块采用glove词嵌入和门控循环单元网络,提取问题Q的问题特征向量q。
首先将问题中的每一个单词进行one-hot编码成ci,如果长度大于N,则删除超出的部分,长度不足,使用空(null)填充到指定的长度。本发明实施例优选N=14。
Q′={c1,c2,c3,…,cN}
使用预训练的glove 300词向量,将每个单词的one-hot编码转化为300维的词向量得到Qwe
Qwe=WE(Q)={w1,w2,…,wN}∈RN×300
其中,WE表示将单词转化为词向量的函数,wi是每个词对应的词向量。
将wi按照先后顺序输入到门控循环单元网络(Gated Recurrent Unit,GRU)中,得到问题编码向量q。
q=GRU(Qwe)
3.信息融合模块
本发明中,信息融合模块由全连接神经网络FC1、FC2和FC3组成,它们的激活函数是ReLu函数,但是权重参数有区别。全连接层的作用是对数据进行非线性映射,提取抽象特征。此处,k=1,FC1处理全局图像特征g,FC2处理问题特征向量q;k>1,FC1处理图像特征向量,FC2处理融合特征向量;FC3将两个输入特征融合得到融合特征。
Figure BDA0002045122580000081
其中,运算符[,]表示连接两个向量。
4.注意力决策模块
本发明中,注意力决策模块采用循环神经网络RNN、FC4、FC5、FC6和FC7,决策出注意力框位置(x,y)和长宽(a,b)。hagent,0为零向量。
hagent,k+1=RNN(hagent,k,uk)
其中,hagent,k为当前内部历史状态。
x′=FC4(hagent,k+1)
y′=FC5(hagent,k+1)
a′=FC6(hagent,k+1)
b′=FC7(hagent,k+1)
其中,FC4、FC5、FC6和FC7激活函数是双曲正切激活函数(tanh),但是权重参数有区别。
x=x′+φ1
y=y′+φ2
a=a′+φ3
b=b′+φ4
φ1、φ2、φ3和φ4为均满足均值为0,方差为1的正态分布的随机数。为决策的结果添加随机噪声,增加模型的搜索能力,有助于搜索到最优解。-1≤x≤1,-1≤y≤1,0≤a≤1,0≤b≤1。
5.特征抽取池化模块
本发明中,特征抽取池化模块根据融合特征向量uk从空间图像特征v中选择图像特征向量
Figure BDA0002045122580000082
如图3所示,在空间图像特征v2048×14×14中,以(x,y)为中心,选择长为a宽为b的矩形区域的特征,再对其进行均值池化操作,得到一维的特征向量。特征获取操作如下:
v2048×a×b=selector(v2048×m×n,x,y,a,b)
Figure BDA0002045122580000091
其中,AP(Average pooling)表示均值池化操作。
6.答案推理模块
本发明中,答案推理模块采用MLP(Multi-layer perceptron,Multi-layerperceptron)推理出问题Q的答案。
推理过程如下:
h=FC9(FC8(u3))
Figure BDA0002045122580000092
其中,h是候选答案分数向量,i是候选答案的索引,hi是向量h中第i个分数,
Figure BDA0002045122580000093
是所有答案中分数最大答案的索引,模型根据索引
Figure BDA0002045122580000094
在候选答案集合找到对应的答案。使用多层感知机进行答案推理。多层感知机包含FC8和FC9两个全连接层。FC8的激活函数是ReLu,FC9不包括激活函数,只采用线性映射部分。
利用强化学习的方法学习自适应的注意力决策过程。首先环境给出了当前用于推理答案的融合特征。智能体根据当前的融合特征,判断还需要补充哪些视觉信息,也就是给出下一步需要到哪个位置获取视觉信息。环境在得到位置之后,根据位置在空间特征中抽取出对应位置的视觉信息,将其与当前的融合信息再次融合得到融合特征,再次将其给智能体。迭代数次后,将使用最后的融合特征推理答案。如果答案正确,则给予这次决策1的奖励,否则奖励为0。智能体根据奖励的情况,改变注意力决策的策略。
环境(Enviroment):空间图像特征、特征抽取池化模块和信息融合模块。
智能体(Agent):注意力决策模块。
状态(State):融合特征。
动作(Action):注意力框的位置(x,y)以及长a、宽b。
策略(Policy):从当前融合特征到注意力框的位置(x,y)以及长a、宽b的映射过程。决策函数πθ为计算注意力的过程,θ是函数的参数。
奖赏(Reward):奖励函数
Figure BDA0002045122580000102
当融合特征能正确的推理出答案时,ri为1,否则,ri为0。
关于图像的问题,一般需要多次调整注意位置才能精确的找到回答问题的一系列信息。这个过程可以看作一个序列化决策过程,也就是连续的选择图像区域特征,然后融合这些特征,推出答案。本发明使用强化学习方法,学习图像上注意力位置决策过程。每次选择图像上一个与问题相关的区域,记录这个区域的信息。
如图4所示,一种基于注意力决策的图像视觉问答方法,该方法包括以下步骤:
S1.使用p个训练样本训练基于注意力决策的图像视觉问答模型,每个样本训练经历K次注意力决策得到推理答案,比较推理答案与该训练样本的标签是否相同,若相同,则K次注意得到的分数均为1,否则,均为0;
S2.以损失函数L为目标函数,利用批量随机梯度下降优化方式优化网络参数,得到训练后的基于强化学习的图像视觉问答模型;
Figure BDA0002045122580000101
Figure BDA0002045122580000111
其中,log(πθ(x,y,a,b))表示计算状态为hagent,i+1、决策为(x,y,a,b)时的损失,rij为第j个样本第i次注意得到的分数。
S3.将待测图像I和问题Q输入训练好的基于强化学习的图像视觉问答模型,得到最终答案。
训练样本的标签代表真实答案。如果位置框选中的信息与问题无关,那么得到的答案必然是错误的,因此,得到的奖励少,下一次选中该位置的概率减小,因此,在此机制之下,与问题无关的信息会更少参与计算。
如图5所示,输入的图像I是一个打棒球的运动员的场景,输入的问题Q是“what isthe player’s number?”。回答问题时,注意力的变化过程。针对“what is the player’snumber?”,模型首先定位到运动员,然后定位到运动员的球衣号码,最后给出答案“22”。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于注意力决策的图像视觉问答模型,其特征在于,所述模型包括:
视觉信息提取模块,用于提取图像I的全局图像特征g和空间图像特征v,将全局图像特征g发送给信息融合模块,将空间图像特征v发送给特征抽取池化模块;
问题分析模块,用于提取问题Q的问题特征向量q,并发送给信息融合模块;
信息融合模块,用于在k=1时,接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q,得到融合特征向量u1;或者,在k=2,…,K时,接收并融合特征向量uk-1和来自特征抽取池化模块的图像特征向量
Figure FDA0002806492140000011
得到融合特征向量uk;在k=1…,K-1时,融合特征向量uk发送给注意力决策模块,在k=K时,融合特征向量uk发送给答案推理模块;
注意力决策模块,用于接收来自信息融合模块的融合特征向量uk,决策出注意力框Lk,并发送给特征抽取池化模块;
特征抽取池化模块,用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框Lk,从空间图像特征v中选择注意力框Lk区域的特征再进行均值池化操作,得到图像特征向量
Figure FDA0002806492140000012
作为第k+1次迭代信息融合模块的输入;
答案推理模块,用于接收来自信息融合模块的融合特征向量uK,推理出问题Q的答案;
其中,k表示迭代次数,初值为1,K表示迭代总次数。
2.如权利要求1所述的模型,其特征在于,所述融合特征向量uk通过以下方式获得:
Figure FDA0002806492140000021
其中,FC1、FC2和FC3为全连接神经网络,运算符[,]表示连接两个向量。
3.如权利要求1所述的模型,其特征在于,所述决策出注意力框Lk,具体如下:
hagent,k+1=RNN(hagent,k,uk)
x′=FC4(hagent,k+1)
y′=FC5(hagent,k+1)
a′=FC6(hagent,k+1)
b′=FC7(hagent,k+1)
Figure FDA0002806492140000022
Figure FDA0002806492140000023
Figure FDA0002806492140000024
Figure FDA0002806492140000025
其中,hagent,k为第k次迭代时内部历史状态,hagent,0为零向量,RNN为循环神经网络,FC4、FC5、FC6和FC7为全连接神经网络,
Figure FDA0002806492140000026
Figure FDA0002806492140000027
Figure FDA0002806492140000028
为均满足均值为0、方差为1正态分布的随机数,(x′,y′)为加噪前决策出注意力框位置,(a′,b′)为加噪前决策出注意力框长宽,(x,y)为加噪后决策出注意力框位置,(a,b)为加噪后决策出注意力框长宽。
4.如权利要求3所述的模型,其特征在于,在空间图像特征v中,以(x,y)为中心,选择长为a宽为b的矩形区域的特征,再对其进行池化操作,得到一维图像特征向量
Figure FDA0002806492140000031
5.如权利要求1至4任一项所述的模型,其特征在于,利用强化学习的方法学习自适应的注意力决策过程。
6.一种基于注意力决策的图像视觉问答方法,其特征在于,该方法包括以下步骤:
S1.使用p个训练样本训练如权利要求1至5任一项所述的基于注意力决策的图像视觉问答模型,比较训练样本的推理答案与该训练样本的标签是否相同,若相同,则该训练样本每次迭代得到的分数均为1,否则,均为0;
S2.基于rkj构建损失函数L,以L为目标函数,优化网络参数,得到训练后的基于注意力决策的图像视觉问答模型,rkj为第j个样本第k次迭代得到的分数,j=1,…,p,k=1,…,K;
S3.将待测图像I和问题Q输入训练好的基于注意力决策的图像视觉问答模型,得到最终答案。
7.如权利要求6所述的方法,其特征在于,利用批量随机梯度下降优化。
8.如权利要求6所述的方法,其特征在于,所述损失函数L的计算公式如下:
Figure FDA0002806492140000032
Figure FDA0002806492140000041
其中,log(πθ(x,y,a,b))表示计算状态为hagent,k+1、决策为(x,y,a,b)时的损失。
9.一种基于注意力决策的图像视觉问答***,其特征在于,该***采用如权利要求6-8任一项所述的基于注意力决策的图像视觉问答方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求6-8任一项所述的基于注意力决策的图像视觉问答方法。
CN201910355026.0A 2019-04-29 2019-04-29 一种基于注意力决策的图像视觉问答模型、方法和*** Expired - Fee Related CN110134774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355026.0A CN110134774B (zh) 2019-04-29 2019-04-29 一种基于注意力决策的图像视觉问答模型、方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355026.0A CN110134774B (zh) 2019-04-29 2019-04-29 一种基于注意力决策的图像视觉问答模型、方法和***

Publications (2)

Publication Number Publication Date
CN110134774A CN110134774A (zh) 2019-08-16
CN110134774B true CN110134774B (zh) 2021-02-09

Family

ID=67575681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355026.0A Expired - Fee Related CN110134774B (zh) 2019-04-29 2019-04-29 一种基于注意力决策的图像视觉问答模型、方法和***

Country Status (1)

Country Link
CN (1) CN110134774B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598573B (zh) * 2019-08-21 2022-11-25 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN110704668B (zh) * 2019-09-23 2022-11-04 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
CN110990630B (zh) * 2019-11-29 2022-06-24 清华大学 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN111260228B (zh) * 2020-01-18 2023-06-23 西安科技大学 一种多阶段任务***性能评估方法及装置
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN111814843B (zh) * 2020-03-23 2024-02-27 同济大学 视觉问答***中图像特征模块端到端训练方法及应用
CN111539292B (zh) * 2020-04-17 2023-07-07 中山大学 一种用于具现化场景问答任务的动作决策模型及方法
CN111754784B (zh) * 2020-06-23 2022-05-24 高新兴科技集团股份有限公司 基于注意力机制的多层网络的车辆主子品牌识别方法
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN111831813B (zh) * 2020-09-21 2021-02-05 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及介质
CN113010656B (zh) * 2021-03-18 2022-12-20 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113205507B (zh) * 2021-05-18 2023-03-10 合肥工业大学 一种视觉问答方法、***及服务器
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、***及服务器
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
CN114417044B (zh) * 2022-01-19 2023-05-26 中国科学院空天信息创新研究院 图像问答的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、***和存储介质
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、***和存储介质
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge;Qi Wu et al;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20180131;第1367-1381页 *
Leveraging Visual Question Answering for Image-Caption Ranking;Xiao Lin et al;《European Conference on Computer Vision 》;20161231;第261-277页 *
Multi-Scale Attentive Interaction Networks for Chinese Medical Question Answer Selection;Sheng Zhang et al;《IEEE Access》;20181231;第74061-74071页 *
基于视觉注意力机制的图像检索方法研究;李艳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110315;第2011年卷(第03期);第I138-1024页 *
基于视觉注意的视觉问答方法研究;刘海宾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第2019年卷(第01期);第I138-3845页 *
应用于图像检索的视觉注意力模型的研究;高静静 等;《测控技术》;20080531;第27卷(第5期);第19-21页 *

Also Published As

Publication number Publication date
CN110134774A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134774B (zh) 一种基于注意力决策的图像视觉问答模型、方法和***
CN112529178B (zh) 一种适用于无预选框检测模型的知识蒸馏方法及***
CN107403426B (zh) 一种目标物体检测方法及设备
CN109858506B (zh) 一种面向卷积神经网络分类结果的可视化算法
CN111507469B (zh) 对自动标注装置的超参数进行优化的方法和装置
CN108846314A (zh) 一种基于深度学习的食材辨识***和食材辨识方法
CN114972418A (zh) 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法
CN111105442B (zh) 切换式目标跟踪方法
CN114818734B (zh) 基于目标-属性-关系的对抗场景语义分析方法以及装置
CN117373111A (zh) 一种基于AutoHOINet的人-物交互检测方法
CN113561995B (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
CN115909027B (zh) 一种态势估计方法及装置
CN116612386A (zh) 基于分级检测双任务模型的辣椒病虫害识别方法及***
CN111160161A (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
CN115496991A (zh) 基于多尺度跨模态特征融合的指代表达理解方法
CN117475187A (zh) 一种训练图像分类模型的方法、装置、设备及存储介质
CN113887353A (zh) 一种可见光-红外的行人重识别方法及***
CN113780027A (zh) 一种基于增广图卷积的多标签物体识别方法、装置及设备
CN117237720B (zh) 基于强化学习的标签噪声矫正图像分类方法
CN114386764B (zh) 一种基于gru和r-gcn的oj平台题目序列推荐方法
JPH08305820A (ja) 能動的物体認識方法および装置
CN117784615B (zh) 一种基于impa-rf的火控***故障预测方法
Procopio An experimental analysis of classifier ensembles for learning drifting concepts over time in autonomous outdoor robot navigation
CN110443344B (zh) 一种基于k2abc算法的动量轮故障诊断方法及装置
CN113313236B (zh) 基于时序神经通路的深度强化学习模型中毒检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210209

CF01 Termination of patent right due to non-payment of annual fee