CN110222770B - 一种基于组合关系注意力网络的视觉问答方法 - Google Patents

一种基于组合关系注意力网络的视觉问答方法 Download PDF

Info

Publication number
CN110222770B
CN110222770B CN201910496302.5A CN201910496302A CN110222770B CN 110222770 B CN110222770 B CN 110222770B CN 201910496302 A CN201910496302 A CN 201910496302A CN 110222770 B CN110222770 B CN 110222770B
Authority
CN
China
Prior art keywords
relation
features
image
target
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910496302.5A
Other languages
English (en)
Other versions
CN110222770A (zh
Inventor
杨阳
汪政
彭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aohaichuan Technology Co ltd
Original Assignee
Chengdu Aohaichuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aohaichuan Technology Co ltd filed Critical Chengdu Aohaichuan Technology Co ltd
Priority to CN201910496302.5A priority Critical patent/CN110222770B/zh
Publication of CN110222770A publication Critical patent/CN110222770A/zh
Application granted granted Critical
Publication of CN110222770B publication Critical patent/CN110222770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于组合关系注意力网络的视觉问答方法,针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答***性。

Description

一种基于组合关系注意力网络的视觉问答方法
技术领域
本发明属于视觉问答(Visual Question Answering,简称VQA)技术领域,更为具体地讲,涉及一种基于组合关系注意力网络的视觉问答方法。
背景技术
现有技术中,视觉问答(VQA)主要分为两个步骤:1)理解图像和文本问题的内容,提取图像特征和问题特征;2)融合图像特征和问题特征,得到多模态的特征表示,然后通过softmax分类器预测问题的答案。其中,注意力机制(Attention)通过关注与问题相关的图像区域和问题中的关键词,从而达到更好地理解图像和问题内容的目的。
在特征融合方面,目前多基于双线性网络(Bilinear Network)进行,在一定程度上能很好地结合图像特征和问题特征。
在视觉关系推理方面,目前的大量工作主要是利用图像的区域特征构建视觉图谱。在视觉图谱中,节点代表图像的区域,边代表图像区域之间的关系。然后利用图卷积网络(Graph Convolutional Network,简称GCN)处理构建的视觉图谱,进行关系推理。
现有技术的视觉问答方法存在以下问题:
1、现有的视觉问答方法只能获取简单的视觉关系,这些视觉关系在回答复杂的文本问题时是不充分的;
2、现有的视觉问答方法利用目标的视觉关系特征更新目标的图像特征,这种方式不能很好地融合图像中目标的图像特征和关系特征。
上述不足,造成预测问题的答案不够准确。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于组合关系注意力网络的视觉问答方法,以提高预测问题的答***性。
为实现上述发明目的,本发明基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成图像特征矩阵Vo
Figure BDA0002088702060000021
Figure BDA00020887020600000224
表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,
Figure BDA0002088702060000023
之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo
Figure BDA0002088702060000024
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征
Figure BDA0002088702060000025
和/>
Figure BDA0002088702060000026
其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
Figure BDA0002088702060000027
其中,
Figure BDA0002088702060000028
为第i个目标与第j个目标的关系向量,/>
Figure BDA0002088702060000029
是中间表征/>
Figure BDA00020887020600000210
的第i行,
Figure BDA00020887020600000211
是中间表征/>
Figure BDA00020887020600000212
的第j行;将第i个目标与所有第j个目标的关系向量/>
Figure BDA00020887020600000213
j=1,2,...,kb,按行放置,得到二元关系矩阵/>
Figure BDA00020887020600000214
这样得到kb个kb行dh列的二元关系矩阵
Figure BDA00020887020600000215
视觉关系注意力机制表示为:
Figure BDA00020887020600000216
其中,
Figure BDA00020887020600000217
是权重矩阵,/>
Figure BDA00020887020600000218
是训练参数,T表示转置,将/>
Figure BDA00020887020600000219
按行放置,得到权重矩阵pb,/>
Figure BDA00020887020600000220
这样得到二元关系特征vb
Figure BDA00020887020600000221
其中,
Figure BDA00020887020600000222
为权重矩阵pb的第i行第j列的元素值,/>
Figure BDA00020887020600000223
是维度为dh的行向量;
在三元关系编码中,先结合问句特征与关系编码特征,生成三个中间表征
Figure BDA0002088702060000031
和/>
Figure BDA0002088702060000032
然后利用点积的操作,生成三个图像目标之间的三元关系:
Figure BDA0002088702060000033
其中,
Figure BDA0002088702060000034
为第i个目标、第j个目标以及第g个目标的关系向量,/>
Figure BDA00020887020600000325
是中间表征
Figure BDA0002088702060000036
的第i行,/>
Figure BDA0002088702060000037
是中间表征/>
Figure BDA0002088702060000038
的第j行,/>
Figure BDA0002088702060000039
是中间表征/>
Figure BDA00020887020600000310
的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>
Figure BDA00020887020600000311
按行放置,得到二元关系矩阵/>
Figure BDA00020887020600000312
这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
Figure BDA00020887020600000313
视觉关系注意力机制表示为:
Figure BDA00020887020600000314
其中,
Figure BDA00020887020600000315
是权重矩阵,/>
Figure BDA00020887020600000316
是训练参数,T表示转置,将/>
Figure BDA00020887020600000317
j=1,2,...,kt按行放置,得到权重矩阵/>
Figure BDA00020887020600000318
将kt权重矩阵/>
Figure BDA00020887020600000319
依次放置,得到三维权重矩阵/>
Figure BDA00020887020600000320
这样得到三元关系特征vt
Figure BDA00020887020600000321
其中,
Figure BDA00020887020600000322
为三维权重矩阵pt的第i页、第j行,第g列的元素值,/>
Figure BDA00020887020600000323
是维度为dh的行向量;
(3)、答案预测
在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
Figure BDA00020887020600000324
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
本发明的目的是这样实现的。
本发明针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答***性。
附图说明
图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图;
图2是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图。
在本实施例中,本发明基于组合关系注意力网络的视觉问答方法,包括以下步骤:结合图1对本发明进行详细描述。
步骤S1:构建目标注意力机制
首先,我们利用Faster-RCNN(快速区域卷积神经网络)+ResNet(残差网络)模型从每一张图像中提取M个目标的图像特征,每个图像特征为一行向量,图像特征的维度为do,M个目标的图像特征按行放置,构成图像特征矩阵Vo
Figure BDA0002088702060000041
Figure BDA0002088702060000044
表示实数矩阵;然后,将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,/>
Figure BDA0002088702060000043
再后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后,所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,/>
Figure BDA0002088702060000051
该过程用如下公式表示:
po=softmax(W1AT) (1)
Figure BDA0002088702060000052
其中,
Figure BDA0002088702060000053
是学习的参数,T表示转置,/>
Figure BDA0002088702060000054
是目标的权重向量,
Figure BDA0002088702060000055
和/>
Figure BDA0002088702060000056
分别是第i个目标的图像特征和权重,softmax为归一化指数函数。
步骤S2:构建关系注意力模块
在视觉关系编码中,我们只关注那些与重要目标相关的关系。所以根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征
Figure BDA0002088702060000057
和/>
Figure BDA0002088702060000058
其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
Figure BDA0002088702060000059
其中,
Figure BDA00020887020600000510
为第i个目标与第j个目标的关系向量,/>
Figure BDA00020887020600000528
是中间表征/>
Figure BDA00020887020600000529
的第i行,
Figure BDA00020887020600000513
是中间表征/>
Figure BDA00020887020600000527
的第j行;将第i个目标与所有第j个目标的关系向量/>
Figure BDA00020887020600000515
Figure BDA00020887020600000516
按行放置,得到二元关系矩阵/>
Figure BDA00020887020600000517
这样得到kb个kb行dh列的二元关系矩阵/>
Figure BDA00020887020600000518
视觉关系注意力机制表示为:
Figure BDA00020887020600000519
其中,
Figure BDA00020887020600000520
是权重矩阵,/>
Figure BDA00020887020600000521
是训练参数,T表示转置,将/>
Figure BDA00020887020600000522
按行放置,得到权重矩阵pb,/>
Figure BDA00020887020600000523
这样得到二元关系特征vb
Figure BDA00020887020600000524
其中,
Figure BDA00020887020600000525
为权重矩阵pb的第i行第j列的元素值,/>
Figure BDA00020887020600000526
是维度为dh的行向量;/>
在三元关系编码中,先结合问句特征与关系编码特征,生成三个中间表征
Figure BDA0002088702060000061
和/>
Figure BDA0002088702060000062
然后利用点积的操作,生成三个图像目标之间的三元关系:
Figure BDA0002088702060000063
其中,
Figure BDA00020887020600000627
为第i个目标、第j个目标以及第g个目标的关系向量,/>
Figure BDA0002088702060000065
是中间表征
Figure BDA0002088702060000066
的第i行,/>
Figure BDA00020887020600000626
是中间表征/>
Figure BDA0002088702060000068
的第j行,/>
Figure BDA0002088702060000069
是中间表征/>
Figure BDA00020887020600000610
的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>
Figure BDA00020887020600000611
按行放置,得到二元关系矩阵/>
Figure BDA00020887020600000612
这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
Figure BDA00020887020600000613
视觉关系注意力机制表示为:
Figure BDA00020887020600000614
其中,
Figure BDA00020887020600000615
是权重矩阵,/>
Figure BDA00020887020600000616
是训练参数,T表示转置,将/>
Figure BDA00020887020600000617
Figure BDA00020887020600000618
按行放置,得到权重矩阵/>
Figure BDA00020887020600000619
将kt权重矩阵/>
Figure BDA00020887020600000620
依次放置,得到三维权重矩阵/>
Figure BDA00020887020600000621
这样得到三元关系特征vt
Figure BDA00020887020600000622
其中,
Figure BDA00020887020600000623
为三维权重矩阵pt的第i页、第j行,第g列的元素值,/>
Figure BDA00020887020600000624
是维度为dh的行向量。
在关系编码的过程中,本发明创新性地进行二元关系和更为复杂的三元关系编码,这能很好地解决现有方法只能提取简单视觉关系的问题。另外,本发明使用注意力机制,能很好地提取更为精细和准确的关系特征。
步骤S3:答案预测
现有方法大多利用目标的关系特征来更新目标的图像特征,然而这样并不能将这两种特征很好地融合。本发明提出将目标的图像特征的提取独立于目标的关系特征的提取,在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合,这样便很好地解决了这个问题。该过程用如下公式表示:
Figure BDA00020887020600000625
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
在本实施例中,选用交叉熵函数作为损失函数进行训练参数的更新,其公式如下:
Figure BDA0002088702060000071
其中
Figure BDA0002088702060000072
是第i个候选答案的预测概率,/>
Figure BDA0002088702060000073
是真实答案的预测概率。/>
实例
在本实施例中,在两个大型的基准数据集VQA-1.0,VQA-2.0上测试本发明的效果,从实验的效果可以可知,本发明基于组合关系注意力网络的视觉问答方法优于现有技术的最高水平方法。
VQA-1.0数据集上的测试结果:
Figure BDA0002088702060000074
表1
其中test-dev和test-std是两个测试数据集。Y/N代表是否(yes/no)问题类型的准确率,Num代表数量(number)类型的准确率,Other代表其他(other)类型的准确率,Overall代表所有问题的准确率。从表1可以看出本发明能在test-std上将总体预测准确率由67.97%提升到69.28%。
VQA-2.0数据集上的测试结果:
Figure BDA0002088702060000081
表2
从表2可以看出,本发明能在test-std上将总体预测准确率由68.41%提升到68.92%。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成矩阵Vo
Figure FDA0002088702050000011
Figure FDA0002088702050000012
表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,/>
Figure FDA0002088702050000013
之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,/>
Figure FDA0002088702050000014
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征
Figure FDA0002088702050000015
和/>
Figure FDA0002088702050000016
其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
Figure FDA0002088702050000017
其中,
Figure FDA0002088702050000018
为第i个目标与第j个目标的关系向量,/>
Figure FDA0002088702050000019
是中间表征/>
Figure FDA00020887020500000110
的第i行,/>
Figure FDA00020887020500000111
是中间表征/>
Figure FDA00020887020500000112
的第j行;将第i个目标与所有第j个目标的关系向量/>
Figure FDA00020887020500000113
Figure FDA00020887020500000114
按行放置,得到二元关系矩阵/>
Figure FDA00020887020500000115
这样得到kb个kb行dh列的二元关系矩阵/>
Figure FDA00020887020500000116
视觉关系注意力机制表示为:
Figure FDA00020887020500000117
其中,
Figure FDA00020887020500000118
是权重矩阵,/>
Figure FDA00020887020500000119
是训练参数,T表示转置,将/>
Figure FDA00020887020500000120
按行放置,得到权重矩阵pb,/>
Figure FDA00020887020500000121
这样得到二元关系特征vb
Figure FDA00020887020500000122
其中,
Figure FDA0002088702050000021
为权重矩阵pb的第i行第j列的元素值,/>
Figure FDA0002088702050000022
是维度为dh的行向量;
在三元关系编码中,先结合问句特征与关系编码特征,生成三个中间表征
Figure FDA0002088702050000023
和/>
Figure FDA0002088702050000024
然后利用点积的操作,生成三个图像目标之间的三元关系:
Figure FDA0002088702050000025
其中,
Figure FDA0002088702050000026
为第i个目标、第j个目标以及第g个目标的关系向量,/>
Figure FDA0002088702050000027
是中间表征/>
Figure FDA0002088702050000028
的第i行,/>
Figure FDA0002088702050000029
是中间表征/>
Figure FDA00020887020500000210
的第j行,/>
Figure FDA00020887020500000211
是中间表征/>
Figure FDA00020887020500000212
的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>
Figure FDA00020887020500000213
按行放置,得到二元关系矩阵/>
Figure FDA00020887020500000214
这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
Figure FDA00020887020500000215
视觉关系注意力机制表示为:
Figure FDA00020887020500000216
其中,
Figure FDA00020887020500000217
是权重矩阵,/>
Figure FDA00020887020500000218
是训练参数,T表示转置,将/>
Figure FDA00020887020500000219
Figure FDA00020887020500000220
按行放置,得到权重矩阵/>
Figure FDA00020887020500000221
将kt权重矩阵/>
Figure FDA00020887020500000222
依次放置,得到三维权重矩阵pt,/>
Figure FDA00020887020500000223
这样得到三元关系特征vt
Figure FDA00020887020500000224
其中,
Figure FDA00020887020500000225
为三维权重矩阵pt的第i页、第j行,第g列的元素值,/>
Figure FDA00020887020500000226
是维度为dh的行向量;
(3)、答案预测
在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
Figure FDA00020887020500000227
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
CN201910496302.5A 2019-06-10 2019-06-10 一种基于组合关系注意力网络的视觉问答方法 Active CN110222770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910496302.5A CN110222770B (zh) 2019-06-10 2019-06-10 一种基于组合关系注意力网络的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910496302.5A CN110222770B (zh) 2019-06-10 2019-06-10 一种基于组合关系注意力网络的视觉问答方法

Publications (2)

Publication Number Publication Date
CN110222770A CN110222770A (zh) 2019-09-10
CN110222770B true CN110222770B (zh) 2023-06-02

Family

ID=67816214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910496302.5A Active CN110222770B (zh) 2019-06-10 2019-06-10 一种基于组合关系注意力网络的视觉问答方法

Country Status (1)

Country Link
CN (1) CN110222770B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241326B (zh) * 2019-12-26 2023-09-26 同济大学 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111782840B (zh) * 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111782838B (zh) * 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111898678A (zh) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 一种对样本进行分类的方法及***
CN112184805B (zh) * 2020-09-10 2024-04-09 杭州电子科技大学 一种基于视觉和空间关系融合的图注意力网络构建方法
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112819052B (zh) * 2021-01-25 2021-12-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、***、设备和存储介质
CN112905762A (zh) * 2021-02-05 2021-06-04 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
CN117236433B (zh) * 2023-11-14 2024-02-02 山东大学 辅助盲人生活的智能通信感知方法、***、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010080121A1 (en) * 2008-12-18 2010-07-15 The Regents Of The University Of California, Santa Cruz Training-free generic object detection in 2-d and 3-d using locally adaptive regression kernels
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN109145970A (zh) * 2018-08-06 2019-01-04 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159043B (zh) * 2007-11-19 2010-12-15 中国科学院计算技术研究所 一种视觉目标上下文空间关系编码的***和方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN109800317B (zh) * 2018-03-19 2022-03-11 中山大学 一种基于图像场景图谱对齐的图像查询回答方法
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN109063568B (zh) * 2018-07-04 2020-12-22 复旦大学 一种基于深度学习的花样滑冰视频自动打分的方法
CN109670065A (zh) * 2018-09-25 2019-04-23 平安科技(深圳)有限公司 基于图像识别的问答处理方法、装置、设备和存储介质
CN109635124B (zh) * 2018-11-30 2021-04-23 北京大学 一种结合背景知识的远程监督关系抽取方法
CN109597998B (zh) * 2018-12-20 2021-07-13 电子科技大学 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010080121A1 (en) * 2008-12-18 2010-07-15 The Regents Of The University Of California, Santa Cruz Training-free generic object detection in 2-d and 3-d using locally adaptive regression kernels
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN109145970A (zh) * 2018-08-06 2019-01-04 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于层级注意力多通道卷积双向GRU的问题分类研究;余本功;朱梦迪;;数据分析与知识发现(08);全文 *

Also Published As

Publication number Publication date
CN110222770A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222770B (zh) 一种基于组合关系注意力网络的视觉问答方法
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
KR101865102B1 (ko) 시각 문답을 위한 시스템 및 방법
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109918491B (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN104408153B (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN110377710A (zh) 一种基于多模态融合的视觉问答融合增强方法
CN111461190A (zh) 一种基于深度卷积神经网络的非均衡船舶分类方法
CN108647233A (zh) 一种用于问答***的答案排序方法
CN109086770B (zh) 一种基于精准尺度预测的图像语义分割方法及模型
CN114241273B (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及***
CN108960330A (zh) 基于快速区域卷积神经网络的遥感图像语义生成方法
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN109670576A (zh) 一种多尺度视觉关注图像描述方法
CN108776832A (zh) 信息处理方法、装置、计算机设备和存储介质
CN106228139A (zh) 一种基于卷积网络的表观年龄预测算法及其***
CN112949622A (zh) 融合文本与图像的双模态性格分类方法及装置
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、***和介质
Cao et al. Deep multi-view learning to rank
CN115391520A (zh) 一种文本情感分类方法、***、装置及计算机介质
Guan et al. Strip steel defect classification using the improved GAN and EfficientNet
CN117422978A (zh) 基于动态双级视觉信息融合的接地视觉问答方法
CN116844039A (zh) 一种联合多注意的跨尺度遥感图像耕地提取方法
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant