CN111611367B - 一种引入外部知识的视觉问答方法 - Google Patents

一种引入外部知识的视觉问答方法 Download PDF

Info

Publication number
CN111611367B
CN111611367B CN202010436987.7A CN202010436987A CN111611367B CN 111611367 B CN111611367 B CN 111611367B CN 202010436987 A CN202010436987 A CN 202010436987A CN 111611367 B CN111611367 B CN 111611367B
Authority
CN
China
Prior art keywords
knowledge
visual
fact
node
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010436987.7A
Other languages
English (en)
Other versions
CN111611367A (zh
Inventor
王春辉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polar Intelligence Technology Co ltd
Original Assignee
Polar Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polar Intelligence Technology Co ltd filed Critical Polar Intelligence Technology Co ltd
Priority to CN202010436987.7A priority Critical patent/CN111611367B/zh
Publication of CN111611367A publication Critical patent/CN111611367A/zh
Application granted granted Critical
Publication of CN111611367B publication Critical patent/CN111611367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种引入外部知识的视觉问答方法。所述方法包括:构造视觉图;构造事实知识图;利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答***率。

Description

一种引入外部知识的视觉问答方法
技术领域
本发明属于自然语言理解技术领域,具体涉及一种引入外部知识的视觉问答方法。
背景技术
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人工智能,将外部知识引入视觉问答中是必不可少的环节。
有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库,抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类,得到一个查询语句,根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度,选择最相关的事实。最后根据问题预测答案的来源,选择一个实体当做最后的问题。但是如果出现同义词或同形异义词,QQMapping的效果就会下降。为此,有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示,然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型,然后根据关系抽取出相应的事实,使用GloVe得到事实的嵌入,计算其与图像-问题联合表示的内积,选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力,能够克服同义词和同形异义词引发的歧义。
图神经网络是一种将深度学习扩展到图数据的模型,可以有效利用图数据的复杂的拓扑结构学习每个节点的表示,从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱,其中每个节点是一个实体,每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示,有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机,最后一层只包括一个神经元,输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。
上述方法存在的问题是:编码图像时都使用了全部的视觉信息,但没有根据问题的不同自适应地选择需要的信息,会引入与问题无关的噪声;将回答问题所需的视觉信息和事实知识直接拼接,没有根据问题进行动态融合。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基引入外部知识的视觉问答方法。
为实现上述目的,本发明采用如下技术方案:
一种引入外部知识的视觉问答方法,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,
Figure BDA0002502643490000031
为边集合,
Figure BDA0002502643490000032
为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,
Figure BDA0002502643490000033
为边集合,
Figure BDA0002502643490000034
为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
与现有技术相比,本发明具有以下有益效果:
本发明通过构造视觉图,构造事实知识图,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点,在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答***率。
附图说明
图1为本发明实施例一种引入外部知识的视觉问答方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种引入外部知识的视觉问答方法,流程图如图1所示,所述方法包括:
S101、构造图像I的视觉图Gv=(Vv,Ev)。Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,
Figure BDA0002502643490000041
为边集合,
Figure BDA0002502643490000042
为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
S102、选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,
Figure BDA0002502643490000043
为边集合,
Figure BDA0002502643490000044
为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
S103、利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
S104、在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
在本实施例中,步骤S101用于构造图像I的视觉图。由于FVQA中的大多数问题都是基于视觉对象及其关系,因此本实施例构造了一个全连通的视觉图来表征表层的视觉信息。视觉图中的一个节点表示一个图像特征向量,是利用Faster-RCNN从图像I的一个检测框内提取的。Faster-RCNN是计算机视觉领域常用的一种目标检测模型。它可以自动地检测出图像中包含的物体并对物体进行分类。任意两个节点之间连接一条边,所述边表示两个节点对应的检测框的位置关系。
在本实施例中,步骤S102用于构造事实知识图。事实知识图的一个节点表示一个事实知识;任意两个节点之间连接一条边,表示两个节点表示的事实知识之间的关系。构造事实知识图的事实知识来自知识库。为了找到与问题最相关的事实,从知识库中选择一系列与问题相关的候选事实知识。首先,计算事实知识中每个单词的词嵌入ai,S101中检测到的每个图像特征标签的词嵌入bj,问题中每个单词的词嵌入ck。计算每个ai、bj与ck的余弦相似度,求这些余弦相似度的平均值,对候选事实知识按所述平均值从大到小排序,选出排在最前面的N个事实知识。然后,为了进一步提高候选事实知识的准确率,利用LSTM预测出问题对应的关系的类型,再从N个事实知识中筛选出属于所述类型的事实知识,得到与问题最相关事实知识用于构造事实知识图。
在本实施例中,步骤S103用于对视觉图和事实知识图进行突出与问题相关的节点和边的操作。利用注意力机制对两个图中的节点、边相对问题进行运算,可以突出与问题相关的节点和边。然后再使用图神经网络对节点进行更新。突出视觉图和事实知识图中与问题相关的节点和边后,有利于更有效地获取问题的答案。
在本实施例中,步骤S104用于从事实知识中获得问题的答案。为了正确回答问题,需要利用视觉和外部知识两种模态中的互补信息。由于问题的答案来自事实知识图中的一个事实知识,可通过从视觉图到事实知识图的跨模态卷积,从视觉图中收集互补信息融入到事实知识图,将融合后概率最大的事实知识作为问题的答案。本实施例通过针对不同的问题收集不同的互补信息,可避免冗余的噪声,提高答***率。
作为一种可选实施例,
Figure BDA0002502643490000051
的计算公式为:
Figure BDA0002502643490000052
式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。
本实施例给出了视觉图的任意一条边
Figure BDA0002502643490000053
的表示方法。
Figure BDA0002502643490000054
的计算方法如公式(1)所示。利用Faster-RCNN提取第i个检测框的图像特征时,返回一个四维的位置向量Bi=(xi,yi,wi,hi),
Figure BDA0002502643490000055
就是根据位置向量Bi得到的。
作为一种可选实施例,所述S103具体包括以下步骤:
对于视觉图,计算每个节点vi相对问题q的注意力权重αi
αi=softmax(watanh(w1vi+w2q))   (2)
式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;
针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji
βji=softmax(wbtanh(w3v′j+w4q′))   (3)
式中,
Figure BDA0002502643490000061
q′=w6[vi,q],wb、w3、w4、w5、w6为学习参数;
利用图神经网络更新节点,即
Figure BDA0002502643490000062
用替换vi
Figure BDA0002502643490000063
Figure BDA0002502643490000064
式中,w7为学习参数;
针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。
本实施例给出了步骤S103突出视觉图和事实知识图中与问题相关的节点和边的一种具体的技术方案。视觉图和事实知识图的处理方法完全相同,均是先计算每个节点相对问题的注意力权重,然后针对每个节点计算与其相连的所有边相对该节点和问题的注意力权重,最后利用图神经网络更新节点。
作为一种可选实施例,所述S104具体包括以下步骤:
计算在问题q的引导下,视觉图中的每个节点vj对事实知识图中的每个节点fi的注意力权重
Figure BDA0002502643490000065
Figure BDA0002502643490000066
式中,wc、w8、w9为学习参数;
计算视觉图对于fi的互补信息
Figure BDA0002502643490000067
Figure BDA0002502643490000068
利用gate机制自适应地对互补信息
Figure BDA0002502643490000069
和事实知识图中的fi进行融合,得到融合后的信息
Figure BDA0002502643490000071
Figure BDA0002502643490000072
Figure BDA0002502643490000073
式中,σ为门函数,w10、w11为学习参数,[·,·]表示向量拼接,“ο”表示两个向量逐元素相乘;
Figure BDA0002502643490000074
反复与
Figure BDA0002502643490000075
进行多次融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。
本实施例给出了步骤S104从事实知识中获得问题答案的一种具体的技术方案。首先,计算在问题的引导下视觉图中的每个节点对事实知识图中的每个节点的注意力权重;然后,计算视觉图对于事实知识图中每个节点的互补信息;最后,将每个节点的互补信息与所述节点反复融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。
为了验证本发明实施例的效果,下面给出一组实验数据。
实验采用包含外部事实知识的FVQA数据集。如果预测答案的字符串匹配了相应的真实答案,则预测的答案是正确的。采用top-1、top-3两种准确率,top-1准确率指的是只有预测出的得分最高的答案是真实答案,那么这个样本才算预测正确;top-3准确率指的是只要预测出的前三高分数的答案中包括真实答案,那么这个样本就算预测正确。实验结果如表1所示,表中方法栏的LSTM-Question+Image+Pre-VQA是通过LSTM得到问题表示,用CNN得到图像表示,然后输入到预训练好的VQA模型中;Hie-Question+Image+Pre-VQA是先用层次化注意力机制处理问题表示和图像表示,然后再输入到VQA模型中;FVQA(QQmaping)将问题转换成一个查询语句,然后在知识库中寻找;Straight to the Facts将图像+问题的表示和事实的表示计算相似度,选择相似度最高的最为答案;Out of the Box将知识表示成一个图结构,其中每个节点的表示是固定形式的;Our model是本发明的模型;Our model(V-Fconcat)是去掉了Our model模型中的跨模态卷积,将所有的视觉特征求平均值,然后再和事实知识图中节点的表示拼接在一起。
表1实验结果
Figure BDA0002502643490000081
由表1可知,本发明模型的所有指标都超过了现有方法。Out of the Box是和本发明最相关的,它一视同仁地将相同的全局图像特征融入到不同的实体,没有收集不同模态中的互补信息来做推断,本发明的准确率相对这种模型获得了显著的提升。为了验证跨模态图卷积的有效性,将视觉到事实的跨模态卷积替换成视觉特征的平均值与事实知识的拼接,top-1和top-3准确率分别下降了1.35%和2.64%,结果证明了跨模态卷积在收集来自不同模态的互补信息方面的有效性。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (3)

1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,
Figure FDA0004040491240000011
为边集合,
Figure FDA0004040491240000012
为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,
Figure FDA0004040491240000013
为边集合,
Figure FDA0004040491240000014
为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案;
所述步骤3具体包括以下步骤:
对于视觉图,计算每个节点vi相对问题q的注意力权重αi
αi=softmax(watanh(w1vi+w2q))                 (2)
式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;
针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji
βji=softmax(wb tanh(w3v′j+w4q′))                 (3)
式中,
Figure FDA0004040491240000015
q′=w6[vi,q],wb、w3、w4、w5、w6为学习参数;
利用图神经网络更新节点,即
Figure FDA0004040491240000016
用替换vi
Figure FDA0004040491240000021
Figure FDA0004040491240000022
式中,w7为学习参数;
针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。
2.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,
Figure FDA0004040491240000023
的计算公式为:
Figure FDA0004040491240000024
式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。
3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤4具体包括以下步骤:
计算在问题q的引导下,视觉图中的每个节点vj对事实知识图中的每个节点fi的注意力权重
Figure FDA0004040491240000025
Figure FDA0004040491240000026
式中,wc、w8、w9为学习参数;
计算视觉图对于fi的互补信息
Figure FDA0004040491240000027
Figure FDA0004040491240000028
利用gate机制自适应地对互补信息
Figure FDA0004040491240000029
和事实知识图中的fi进行融合,得到融合后的信息
Figure FDA00040404912400000210
Figure FDA00040404912400000211
Figure FDA00040404912400000212
式中,σ为门函数,w10、w11为学习参数,[·,·]表示向量拼接,
Figure FDA00040404912400000213
表示两个向量逐元素相乘;
Figure FDA0004040491240000031
反复与
Figure FDA0004040491240000032
进行多次融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。
CN202010436987.7A 2020-05-21 2020-05-21 一种引入外部知识的视觉问答方法 Active CN111611367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010436987.7A CN111611367B (zh) 2020-05-21 2020-05-21 一种引入外部知识的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010436987.7A CN111611367B (zh) 2020-05-21 2020-05-21 一种引入外部知识的视觉问答方法

Publications (2)

Publication Number Publication Date
CN111611367A CN111611367A (zh) 2020-09-01
CN111611367B true CN111611367B (zh) 2023-04-28

Family

ID=72199893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010436987.7A Active CN111611367B (zh) 2020-05-21 2020-05-21 一种引入外部知识的视觉问答方法

Country Status (1)

Country Link
CN (1) CN111611367B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255918B (zh) * 2021-04-13 2023-04-25 国家计算机网络与信息安全管理中心 强化聚合知识指导的生成常识推理方法
CN113240046B (zh) * 2021-06-02 2023-01-03 哈尔滨工程大学 一种基于知识的视觉问答任务下的多模态信息融合方法
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110399518A (zh) * 2019-06-17 2019-11-01 杭州电子科技大学 一种基于图卷积的视觉问答增强方法
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469169A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
US20190057297A1 (en) * 2017-08-17 2019-02-21 Microsoft Technology Licensing, Llc Leveraging knowledge base of groups in mining organizational data
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
US10803394B2 (en) * 2018-03-16 2020-10-13 Accenture Global Solutions Limited Integrated monitoring and communications system using knowledge graph based explanatory equipment management
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110399518A (zh) * 2019-06-17 2019-11-01 杭州电子科技大学 一种基于图卷积的视觉问答增强方法
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Weike Jin 等.Video Question Answering via Knowledge-based Progressive Spatial-Temporal Attention Network.ACM.2019,第1-22页. *
俞俊 ; 汪亮 ; 余宙 ; .视觉问答技术研究.计算机研究与发展.2018,(09),第1946-1958页. *
闫茹玉 ; 刘学亮 ; .结合自底向上注意力机制和记忆网络的视觉问答模型.中国图象图形学报.2020,(05),第993-1006页. *

Also Published As

Publication number Publication date
CN111611367A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
Qi et al. Attentive relational networks for mapping images to scene graphs
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
CN103268495B (zh) 计算机***中基于先验知识聚类的人体行为建模识别方法
WO2022001123A1 (zh) 关键点检测方法、装置、电子设备及存储介质
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其***
CN111242197A (zh) 基于双视域语义推理网络的图像文匹配方法
Cai et al. A robust interclass and intraclass loss function for deep learning based tongue segmentation
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Banzi et al. Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation
CN112115993A (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN116416334A (zh) 一种基于原型的嵌入网络的场景图生成方法
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和***
Liao et al. FERGCN: facial expression recognition based on graph convolution network
Liu et al. Hierarchical information passing based noise-tolerant hybrid learning for semi-supervised human parsing
Lonij et al. Open-world visual recognition using knowledge graphs
CN116701590A (zh) 基于知识图谱构建答案语义空间的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant