CN114117159A - 一种多阶图像特征与问题交互的图像问答方法 - Google Patents

一种多阶图像特征与问题交互的图像问答方法 Download PDF

Info

Publication number
CN114117159A
CN114117159A CN202111489978.5A CN202111489978A CN114117159A CN 114117159 A CN114117159 A CN 114117159A CN 202111489978 A CN202111489978 A CN 202111489978A CN 114117159 A CN114117159 A CN 114117159A
Authority
CN
China
Prior art keywords
image
features
attention
order
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111489978.5A
Other languages
English (en)
Other versions
CN114117159B (zh
Inventor
田晓琛
郭贵冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202111489978.5A priority Critical patent/CN114117159B/zh
Publication of CN114117159A publication Critical patent/CN114117159A/zh
Application granted granted Critical
Publication of CN114117159B publication Critical patent/CN114117159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明设计一种多阶图像特征与问题交互的图像问答方法,涉及计算机视觉和自然语言处理领域。首先计算问题和图像的交叉注意力,本质是计算问题在图像中相关的区域,降低图像的噪声,进一步提取图像的一阶、二阶和高阶特征,从而,让图像特征中选出跟问题最相关的那部分特征,最后将融合后的特征送到分类器中,预测正确的答案,使模型预测答***率有显著提高。

Description

一种多阶图像特征与问题交互的图像问答方法
技术领域
本发明涉及计算机视觉和自然语言处理领域,尤其涉及一种多阶图像特征与问题交互的图像问答方法。
背景技术
图像问答是将图像和自然语言问题作为输入,并生成自然语言答案作为输出,可以把它看做成多模态学习任务,这使它受到了计算机视觉和自然语言处理(NLP)领域的广泛关注。在过去几年中,图像-文本匹配、图像字幕和图像问答等许多视觉语言任务都取得了显著进展。与其他多模态学习任务相比,图像问答是一项更具挑战性的任务,它可以表示为一个多分类问题,根据一幅图像来预测给定问题的正确答案。除了回答给定的问题,图像问答在教育和盲人援助等实际生活中也有各种应用。
图像问答现有最直接的解决方法是联合嵌入方法,联合嵌入方法(jointembedding)的动机是深度神经网络在计算机视觉和NLP中的进步,使用卷积和递归神经网络(CNN和RNN)来学习共同特征空间嵌入的图像和句子,这允许将它们一起送到预测答案的分类器。
除联合嵌入方法外,还有引入了自下而上和自上而下的注意力机制的方式来学习图像每个对象的注意,而不是对空间网格的注意,该方法也是率先将图像自注意力引入图像问答任务中的。也有提出了一种问题引导的注意方法,将问题映射到视觉空间,并制定了一个可设置的卷积核来搜索图像注意区域。基于堆叠注意力网络的图像问答方法则提出了一种堆叠注意网络来迭代学习注意。最后,还有使用多模态双线性池化方法,将来自图像空间网格的视觉特征与来自问题的文本特征相结合。
数据集使用的是图像问答系列数据集(当前有两个版本,分别是VQAv1和VQAv2),由于VQAv1中存在语言偏见,其中问题与特定的答案高度相关,而在VQAv2通过收集每个问题产生不同答案的互补图像来缓解这种语言偏见。所以,对于图像问答这个任务,现有方法均是在图像问答2.0自然图像数据集上进行实验。
联合嵌入方法的一个局限性是,当正确答案在图像局部区域时,图像的全局特征可能会丢失关键的信息(例如,“桌子上有什么物体?”)。现有的模型都是采用各种注意力机制来融合图像和文本特征,这些注意力机制只考虑了问题在图像中关键的区域,没有考虑问题自身所产生的作用,即问题中哪些单词对表示这个句子的句意更有作用。除此之外,更重要的一点是现有方法均忽略了图像特征中底层和高层特征所代表的不同信息,而这一点对模型能否正确预测答案也起到了很大的作用。
发明内容
针对现有技术的不足,本发明提出一种多阶图像特征与问题交互的图像问答方法。一种多阶图像特征与问题交互的图像问答方法,具体步骤为:
步骤1:获取图像问答系列VQAv2数据集并对其进行预处理;
利用包含自下而上注意力的Faster-Rcnn模型提取VQAv2数据集中图像的特征X∈Rm×dx,提取到图像中的前m个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个dx维度的向量来表示;
步骤2:计算图像对应问题的自注意力T=[t1;...;tn]∈Rn×dy以及利用门循环单元网络GRU提取问题特征;
首先要通过正则的方式对问题进行预处理,将问题中的特殊符号去掉以及将大写转换成小写;然后使用glove语料库,找到问题中相应单词的特征,将每个单词转换成一个300维的向量;最后对问题做自注意力计算,使问题中的每个单词具有一个权重:T=[t1;...;tn]∈Rn×dy,把它送到门循环网络GRU中,输出一个维度是1024的向量Y表示整个问题的特征;
其中,R表示实数,tn表示问题中每个单词的特征,n表示单词个数,dy表示每个单词特征向量的维度;
步骤3:建立Guided-Attention Deep FM模块,即GADF模块,将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分,利用GADF模块对上述步骤1和步骤2得到的图像特征和问题特征进行交叉注意力计算;并提取降噪后图像的一阶、二阶和高阶特征;
步骤3.1:通过引导注意力Guided-Attention对图像特征进行降噪处理,计算问题特征和图像特征的交叉注意力,选出图像中和问题相关度高的区域,得到图像中问题关注的对象,具体为:
首先,用由维度是dkey的查询向量querys,以及维度是dvalue的值向量values组成的放缩点积scaled dot-product注意力,将dkey和dvalue的维度统一成d;通过计算querys和所有keys的点积,每个点积除以
Figure BDA0003398055090000021
并用softmax函数获得querys上的注意权值:
Figure BDA0003398055090000022
attention_output=Attention(Q,K,V)
其中,Q、K、V分别表示querys、keys、values;
Figure BDA0003398055090000031
表示k维度的向量,KT表示querys向量的转置;
进一步提高图像中问题关注的特征的表示能力,引入由h个并联的“头”组成的多头注意,每个头部对应一个独立的点积注意力函数:
Figure BDA0003398055090000032
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,Wi Q,Wi K,Wi V∈Rd×dh,i表示头的个数,Wo∈Rh×db×d,R是实数,h表示头的个数,ah表示隐藏层的维度,d表示最后输出的维度,headh表示每个头输出特征;
使用引导注意力Guided-Attention计算交叉注意力时,将预处理的图像特征X∈Rm×dx作为引导注意力Guided-Attention中的X输入,也是上述公式中的Q,问题特征Y作为引导注意力Guided-Attention中的Y输入,问题特征Y来引导图像特征X的注意力学习;最后,经过计算得到图像中问题所关注的对象特征Z∈Rm×dx
其中,R是实数,m表示图像中对象个数,dx表示每个对象的向量维度;
步骤3.2:DEEP FM提取降噪后图像的一阶、二阶和高阶特征;
一阶特征只独立考虑图像中每个特征,通过一个矩阵映射提取到它的特征;
二阶特征考虑图像中两两特征之间的交互,利用隐向量内积的方式来表示图像特征的二阶交叉信息,从而得到两两对象之间的关系特征,具体为:
Figure BDA0003398055090000033
其中,w和v是权重;x是每个图像特征的向量;j1,j2表示计数器;d表示特征个数;xj1,xj2表示图像中两个独立的特征;vi,vj表示图像中两个独立特征的隐向量;<·,·>是两个向量的点积;
高阶特征通过一个多层感知机得到图像的辅助二阶特征,获取更高层的信息,具体为:
yhight=σ(W|H|+1·a|H|+b|H|+1)
其中,|H|是层数,σ是激活函数,W是模型的权重,b是第几层的偏置,a是图像中每个对象特征;
步骤4:将提取的一阶、二阶和高阶特征与问题特征进行融合,将融合后的特征送到分类器中,预测图像中问题关注的答案;
首先将一阶、二阶和高阶特征拼接成一个矩阵,用问题特征跟这个矩阵做注意力,从图像特征中选出跟问题最相关的那部分特征,然后再和问题加权求和得到融合后的特征,将其送得分类器中,经过答案矩阵映射,得到预测的答案特征,预测图像中问题关注的答案;
所述分类器为答案出现频率最多的前f个作为候选答案,生成的答案矩阵。
本发明的有益效果:本发明提出的一种多阶图像特征与问题交互的图像问答方法,考虑了图像特征中底层和高层特征所代表的不同信息,从而对模型正确预测答案起到了很大的作用,使模型预测答***率有显著提高。
附图说明
图1本发明实施例流程图。
图2本发明实施例整体模型架构图。
图3本发明实施例引导注意力模块图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明:一种多阶图像特征与问题交互的图像问答方法。
本发明所述的多阶图像特征与问题交互的图像问答方法,旨在多模态特征融合的时候将问题与图像的一阶、二阶和高阶特征结合起来,充分利用图像中底层和高层所代表的不同信息,使融合后的特征更加多样和丰富,从而更加接近正确答案。本次构建的模型基于pytorch1.0框架,Python3.6版本。本发明实施例整体流程图如图1所示,模型构架图如图2,具体为:
步骤1:获取图像问答系列VQAv2数据集并对其进行预处理;
利用包含自下而上注意力的Faster-Rcnn模型提取VQAv2数据集中图像的特征X∈Rm×dx,提取到图像中的前m个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个dx维度的向量来表示;
本实施例提取到图像中的前36个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个2048维度的向量来表示;本实施例用一个36x2048的矩阵来表示一张图像的特征;
步骤2:计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征;首先要通过正则的方式对问题进行预处理,将问题中的特殊符号去掉以及将大写转换成小写,使问题变得更加整齐(例:“What is in the dog’s mouth?”经过处理后变成“what isin the dog mouth”这样一个整齐的序列);然后使用glove语料库,找到问题中相应单词的特征,将每个单词转换成一个300维的向量;最后对问题做自注意力计算,使问题中的每个单词具有一个权重:T=[t1;...;tn]∈Rn×dy,把它送到门循环单元GRU中,输出一个维度是1024的向量表示整个问题的特征;
其中,tn表示问题中每个单词的特征,n表示单词个数,dy表示每个单词特征向量的维度;
步骤3:建立Guided-Attention Deep FM模块,即GADF模块,对应图2中GADF模块区域,将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分,引导注意力Guided-Attention对应附图2中GADF模块左边,DEEP FM对应附图2中GADF模块右边,利用GADF模块对上述步骤1和步骤2得到的图像特征和问题特征进行交叉注意力计算;并提取降噪后图像的一阶、二阶和高阶特征;
步骤3.1:GADF模块一部分是引导注意力Guided-Attention,如附图3所示,通过引导注意力Guided-Attention对图像特征进行降噪处理,计算问题特征和图像特征的交叉注意力,选出图像中和问题相关度高的区域,得到图像中问题关注的对象,具体为:
首先,用由维度是dkey的查询向量querys,以及维度是dvalue的值向量values组成的放缩点积scaled dot-product注意力,将dkey和dvalue的维度统一成d;通过计算querys和所有keys的点积,每个点积除以
Figure BDA0003398055090000051
并用softmax函数获得querys上的注意权值:
Figure BDA0003398055090000052
attention_output=Attention(Q,K,V)
其中,Q、K、V分别表示querys、keys、values;
Figure BDA0003398055090000053
表示k维度的向量,KT表示querys向量的转置;
进一步提高图像中问题关注的特征的表示能力,引入由h个并联的“头”组成的多头注意,每个头部对应一个独立的点积注意力函数:
Figure BDA0003398055090000054
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,Wi Q,Wi K,Wi V∈Rd×dh,i表示头的个数,Wo∈Rh*dh×d,R是实数,h表示头的个数,dh表示隐藏层的维度,d表示最后输出的维度,headh表示每个头输出特征;headb是每个头输出特征的维度;使用引导注意力Guided-Attention时,将预处理好的图像特征
Figure BDA0003398055090000064
作为附图三中的X输入,也是公式中的Q,问题特征Y作为附图三中的Y输入,根据图三,可知问题特征Y来引导图像特征X的注意力学习。最后,经过计算得到图像中问题所关注的对象特征
Figure BDA0003398055090000063
步骤3.2:GADF模块另一部分提取降噪后图像的一阶、二阶和高阶特征;
一阶特征只独立考虑图像中每个特征,通过一个矩阵映射提取到它的特征;
二阶特征考虑图像中两两特征之间的交互,利用隐向量内积的方式来表示图像特征的二阶交叉信息,从而得到两两对象之间的关系特征,具体为:
Figure BDA0003398055090000061
其中,w和v是权重;x是每个图像特征的向量;j1,j2表示计数器;d表示特征个数;xj1,xj2表示图像中两个独立的特征;vi,vj表示图像中两个独立特征的隐向量;<·,·>是两个向量的点积;
高阶特征通过一个多层感知机得到图像的辅助二阶特征,获取更高层的信息,具体为:
yhight=σ(W|H|+1·a|H|+b|H|+1)
其中,|H|是层数,σ是激活函数,W是模型的权重,b是第几层的偏置,a是图像中每个对象特征;
步骤4:将提取的一阶、二阶和高阶特征与问题特征进行融合,将融合后的特征送到分类器中,预测图像中问题关注的答案;
首先将一阶、二阶和高阶特征拼接成一个矩阵,用问题特征跟这个矩阵做注意力,使问题从图像特征中选出跟其最相关的那部分特征;然后再和问题加权求和得到融合后的特征,将其送得分类器中,经过答案矩阵映射,得到预测的答案特征;预测图像中问题关注的答案;
所述分类器为答案出现频率最多的前3000个作为候选答案,生成的答案矩阵。
本发明图像问答方法与其他图像问答方法对比结果;
Figure BDA0003398055090000062
Figure BDA0003398055090000071
其中准确率有以下四种All、Y/N、Num和Other,分别表示总的准确率、答案类别是yes或no的准确率、答案类别是数字的准确率和答案类别除这两种之外的准确率。
其他三种图像问答方法为:Zichao Yang,Xiaodong He,Jianfeng Gao,Li Deng,and Alex Smola.Stacked attentionnetworks for image questionanswering.In IEEEConference on Computer Vision and Pattern Recognition(CVPR),pages 21–29,2016.(基于叠加注意力网络的图像问答模型)。
Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,Trevor Darrell,and Marcus Rohrbach.Multimodal compactbilinear pooling for visual questionanswering and visual grounding.arXiv preprint arXiv:1606.01847,2016.(基于多模态双线性池化的图像问答模型)。
J.Lu,J.Yang,D.Batra,and D.Parikh.Hierarchicalquestion-image co-attention for visual question answering.In Advances In Neural InformationProcessing Systems,pages 289–297,2016.(基于图像和问题分层联合注意力的图像问答模型)。

Claims (7)

1.一种多阶图像特征与问题交互的图像问答方法,其特征在于,包括以下步骤:
步骤1:获取图像问答系列VQAv2数据集并对其进行预处理,得到图像特征;
步骤2:计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征;
步骤3:建立Guided-Attention Deep FM模块,即GADF模块,将GADF模块分成引导注意力Guided-Attention和DEEP FM两部分,通过引导注意力Guided-Attention对图像特征进行降噪处理,计算问题特征和图像特征的交叉注意力,选出图像中和问题相关度高的区域,得到图像中问题关注的对象;DEEP FM提取降噪后图像的一阶、二阶和高阶特征;
步骤4:将提取的一阶、二阶和高阶特征与问题特征进行融合,将融合后的特征送到分类器中,预测图像中问题关注的答案。
2.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤1中所述的获取图像问答系列VQAv2数据集并对其进行预处理,得到图像特征具体为:
利用包含自下而上注意力的Faster-Rcnn模型提取VQAv2数据集中图像的特征X∈Rm ×dx,提取到图像中的前m个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个dx维度的向量来表示。
3.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤2中所述的计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征具体为:
首先要通过正则的方式对问题进行预处理,将问题中的特殊符号去掉以及将大写转换成小写;然后使用glove语料库,找到问题中相应单词的特征,将每个单词转换成一个300维的向量;最后对问题做自注意力计算,使问题中的每个单词具有一个权重:T=[t1;...;tn]∈Rn×dy,把它送到门循环网络GRU中,输出一个维度是1024的向量Y表示整个问题的特征;
其中,R表示实数,tn表示问题中每个单词的特征,n表示单词个数,dy表示每个单词特征向量的维度。
4.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤3中所述的引导注意力Guided-Attention具体为:
首先,用由维度是dkey的查询向量querys,以及维度是dvalue的值向量values组成的放缩点积scaled dot-product注意力,将dkey和dvalue的维度统一成d;通过计算querys和所有keys的点积,每个点积除以
Figure FDA0003398055080000011
并用softmax函数获得querys上的注意权值:
Figure FDA0003398055080000021
attention_output=Attention(Q,K,V)
其中,Q、K、V分别表示querys、keys、values;
Figure FDA0003398055080000022
表示k维度的向量,KT表示querys向量的转置;
进一步提高图像中问题关注的特征的表示能力,引入由h个并联的“头”组成的多头注意,每个头部对应一个独立的点积注意力函数:
Figure FDA0003398055080000023
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,Wi Q,Wi K,Wi V∈Rd×dh,i表示头的个数,Wo∈Rh×dh×d,R是实数,h表示头的个数,dh表示隐藏层的维度,d表示最后输出的维度,headb表示每个头输出特征;
使用引导注意力Guided-Attention计算交叉注意力时,将预处理的图像特征X∈Rm×dx作为引导注意力Guided-Attention中的X输入,也是上述公式中的Q,问题特征Y作为引导注意力Guided-Attention中的Y输入,问题特征Y来引导图像特征X的注意力学习;最后,经过计算得到图像中问题所关注的对象特征Z∈Rm×dx
其中,R是实数,m表示图像中对象个数,dx表示每个对象的向量维度。
5.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤3中所述的DEEP FM具体为:
一阶特征只独立考虑图像中每个特征,通过一个矩阵映射提取到它的特征;
二阶特征考虑图像中两两特征之间的交互,利用隐向量内积的方式来表示图像特征的二阶交叉信息,从而得到两两对象之间的关系特征,具体为:
Figure FDA0003398055080000024
其中,w和v是权重;x是每个图像特征的向量;j1,j2表示计数器;d表示特征个数;xj1,xj2表示图像中两个独立的特征;vi,vj表示图像中两个独立特征的隐向量;<·,·>是两个向量的点积;
高阶特征通过一个多层感知机得到图像的辅助二阶特征,获取更高层的信息,具体为:
yhight=σ(W|H|+1·a|H|+b|H|+1)
其中,|H|是层数,σ是激活函数,W是模型的权重,b是偏置,a是图像中每个对象特征。
6.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤4中所述的将提取的一阶、二阶和高阶特征与问题特征进行融合,将融合后的特征送到分类器中,预测图像中问题关注的答案具体为:
首先将一阶、二阶和高阶特征拼接成一个矩阵,用问题特征跟这个矩阵做注意力,从图像特征中选出跟问题最相关的那部分特征,然后再和问题加权求和得到融合后的特征,将其送得分类器中,经过答案矩阵映射,得到预测的答案特征,预测图像中问题关注的答案。
7.根据权利要求6所述一种多阶图像特征与问题交互的图像问答方法,其特征在于,所述的分类器具体为:
分类器为答案出现频率最多的前f个作为候选答案,生成的答案矩阵。
CN202111489978.5A 2021-12-08 2021-12-08 一种多阶图像特征与问题交互的图像问答方法 Active CN114117159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111489978.5A CN114117159B (zh) 2021-12-08 2021-12-08 一种多阶图像特征与问题交互的图像问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111489978.5A CN114117159B (zh) 2021-12-08 2021-12-08 一种多阶图像特征与问题交互的图像问答方法

Publications (2)

Publication Number Publication Date
CN114117159A true CN114117159A (zh) 2022-03-01
CN114117159B CN114117159B (zh) 2024-07-12

Family

ID=80367372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111489978.5A Active CN114117159B (zh) 2021-12-08 2021-12-08 一种多阶图像特征与问题交互的图像问答方法

Country Status (1)

Country Link
CN (1) CN114117159B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996425A (zh) * 2022-06-17 2022-09-02 平安科技(深圳)有限公司 视觉问答的方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵煜;郭贵冰;姜琳颖: "基于对抗采样的社交推荐算法", 信息安全学报, no. 005, 31 December 2021 (2021-12-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996425A (zh) * 2022-06-17 2022-09-02 平安科技(深圳)有限公司 视觉问答的方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114117159B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
Zhao et al. High-resolution remote sensing image captioning based on structured attention
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
EP3166049B1 (en) Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112036276B (zh) 一种人工智能视频问答方法
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
CN113065587B (zh) 一种基于超关系学习网络的场景图生成方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
Xu et al. Scene graph inference via multi-scale context modeling
Wang et al. Structured triplet learning with pos-tag guided attention for visual question answering
Li et al. Adapting clip for phrase localization without further training
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN114048290A (zh) 一种文本分类方法及装置
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
Yan Computational methods for deep learning: theory, algorithms, and implementations
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及***
CN114117159A (zh) 一种多阶图像特征与问题交互的图像问答方法
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant