CN110222770B - 一种基于组合关系注意力网络的视觉问答方法 - Google Patents
一种基于组合关系注意力网络的视觉问答方法 Download PDFInfo
- Publication number
- CN110222770B CN110222770B CN201910496302.5A CN201910496302A CN110222770B CN 110222770 B CN110222770 B CN 110222770B CN 201910496302 A CN201910496302 A CN 201910496302A CN 110222770 B CN110222770 B CN 110222770B
- Authority
- CN
- China
- Prior art keywords
- relation
- features
- image
- target
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于组合关系注意力网络的视觉问答方法,针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答***性。
Description
技术领域
本发明属于视觉问答(Visual Question Answering,简称VQA)技术领域,更为具体地讲,涉及一种基于组合关系注意力网络的视觉问答方法。
背景技术
现有技术中,视觉问答(VQA)主要分为两个步骤:1)理解图像和文本问题的内容,提取图像特征和问题特征;2)融合图像特征和问题特征,得到多模态的特征表示,然后通过softmax分类器预测问题的答案。其中,注意力机制(Attention)通过关注与问题相关的图像区域和问题中的关键词,从而达到更好地理解图像和问题内容的目的。
在特征融合方面,目前多基于双线性网络(Bilinear Network)进行,在一定程度上能很好地结合图像特征和问题特征。
在视觉关系推理方面,目前的大量工作主要是利用图像的区域特征构建视觉图谱。在视觉图谱中,节点代表图像的区域,边代表图像区域之间的关系。然后利用图卷积网络(Graph Convolutional Network,简称GCN)处理构建的视觉图谱,进行关系推理。
现有技术的视觉问答方法存在以下问题:
1、现有的视觉问答方法只能获取简单的视觉关系,这些视觉关系在回答复杂的文本问题时是不充分的;
2、现有的视觉问答方法利用目标的视觉关系特征更新目标的图像特征,这种方式不能很好地融合图像中目标的图像特征和关系特征。
上述不足,造成预测问题的答案不够准确。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于组合关系注意力网络的视觉问答方法,以提高预测问题的答***性。
为实现上述发明目的,本发明基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成图像特征矩阵Vo, 表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
其中,为第i个目标与第j个目标的关系向量,/>是中间表征/>的第i行,是中间表征/>的第j行;将第i个目标与所有第j个目标的关系向量/>j=1,2,...,kb,按行放置,得到二元关系矩阵/>这样得到kb个kb行dh列的二元关系矩阵
视觉关系注意力机制表示为:
其中,为第i个目标、第j个目标以及第g个目标的关系向量,/>是中间表征的第i行,/>是中间表征/>的第j行,/>是中间表征/>的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>按行放置,得到二元关系矩阵/>这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
视觉关系注意力机制表示为:
(3)、答案预测
在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
本发明的目的是这样实现的。
本发明针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答***性。
附图说明
图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图;
图2是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于组合关系注意力网络的视觉问答方法一种具体实施方式流程图。
在本实施例中,本发明基于组合关系注意力网络的视觉问答方法,包括以下步骤:结合图1对本发明进行详细描述。
步骤S1:构建目标注意力机制
首先,我们利用Faster-RCNN(快速区域卷积神经网络)+ResNet(残差网络)模型从每一张图像中提取M个目标的图像特征,每个图像特征为一行向量,图像特征的维度为do,M个目标的图像特征按行放置,构成图像特征矩阵Vo, 表示实数矩阵;然后,将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,/>再后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后,所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,/>该过程用如下公式表示:
po=softmax(W1AT) (1)
步骤S2:构建关系注意力模块
在视觉关系编码中,我们只关注那些与重要目标相关的关系。所以根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
其中,为第i个目标与第j个目标的关系向量,/>是中间表征/>的第i行,是中间表征/>的第j行;将第i个目标与所有第j个目标的关系向量/> 按行放置,得到二元关系矩阵/>这样得到kb个kb行dh列的二元关系矩阵/>
视觉关系注意力机制表示为:
其中,为第i个目标、第j个目标以及第g个目标的关系向量,/>是中间表征的第i行,/>是中间表征/>的第j行,/>是中间表征/>的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>按行放置,得到二元关系矩阵/>这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
视觉关系注意力机制表示为:
在关系编码的过程中,本发明创新性地进行二元关系和更为复杂的三元关系编码,这能很好地解决现有方法只能提取简单视觉关系的问题。另外,本发明使用注意力机制,能很好地提取更为精细和准确的关系特征。
步骤S3:答案预测
现有方法大多利用目标的关系特征来更新目标的图像特征,然而这样并不能将这两种特征很好地融合。本发明提出将目标的图像特征的提取独立于目标的关系特征的提取,在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合,这样便很好地解决了这个问题。该过程用如下公式表示:
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
在本实施例中,选用交叉熵函数作为损失函数进行训练参数的更新,其公式如下:
实例
在本实施例中,在两个大型的基准数据集VQA-1.0,VQA-2.0上测试本发明的效果,从实验的效果可以可知,本发明基于组合关系注意力网络的视觉问答方法优于现有技术的最高水平方法。
VQA-1.0数据集上的测试结果:
表1
其中test-dev和test-std是两个测试数据集。Y/N代表是否(yes/no)问题类型的准确率,Num代表数量(number)类型的准确率,Other代表其他(other)类型的准确率,Overall代表所有问题的准确率。从表1可以看出本发明能在test-std上将总体预测准确率由67.97%提升到69.28%。
VQA-2.0数据集上的测试结果:
表2
从表2可以看出,本发明能在test-std上将总体预测准确率由68.41%提升到68.92%。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成矩阵Vo, 表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,/>之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,/>
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
其中,为第i个目标与第j个目标的关系向量,/>是中间表征/>的第i行,/>是中间表征/>的第j行;将第i个目标与所有第j个目标的关系向量/> 按行放置,得到二元关系矩阵/>这样得到kb个kb行dh列的二元关系矩阵/>
视觉关系注意力机制表示为:
其中,为第i个目标、第j个目标以及第g个目标的关系向量,/>是中间表征/>的第i行,/>是中间表征/>的第j行,/>是中间表征/>的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量/>按行放置,得到二元关系矩阵/>这样得到kt组,每组kt个kt行dh列的二元关系矩阵/>
视觉关系注意力机制表示为:
(3)、答案预测
在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496302.5A CN110222770B (zh) | 2019-06-10 | 2019-06-10 | 一种基于组合关系注意力网络的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910496302.5A CN110222770B (zh) | 2019-06-10 | 2019-06-10 | 一种基于组合关系注意力网络的视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222770A CN110222770A (zh) | 2019-09-10 |
CN110222770B true CN110222770B (zh) | 2023-06-02 |
Family
ID=67816214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910496302.5A Active CN110222770B (zh) | 2019-06-10 | 2019-06-10 | 一种基于组合关系注意力网络的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222770B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241326B (zh) * | 2019-12-26 | 2023-09-26 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111274800B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111782840B (zh) * | 2020-06-30 | 2023-08-22 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111782838B (zh) * | 2020-06-30 | 2024-04-05 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111898678A (zh) * | 2020-07-30 | 2020-11-06 | 北京嘀嘀无限科技发展有限公司 | 一种对样本进行分类的方法及*** |
CN112184805B (zh) * | 2020-09-10 | 2024-04-09 | 杭州电子科技大学 | 一种基于视觉和空间关系融合的图注意力网络构建方法 |
CN112488055B (zh) * | 2020-12-18 | 2022-09-06 | 贵州大学 | 一种基于渐进图注意力网络的视频问答方法 |
CN112819052B (zh) * | 2021-01-25 | 2021-12-24 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多模态细粒度混合方法、***、设备和存储介质 |
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN114661874B (zh) * | 2022-03-07 | 2024-04-30 | 浙江理工大学 | 基于多角度语义理解与自适应双通道的视觉问答方法 |
CN117236433B (zh) * | 2023-11-14 | 2024-02-02 | 山东大学 | 辅助盲人生活的智能通信感知方法、***、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010080121A1 (en) * | 2008-12-18 | 2010-07-15 | The Regents Of The University Of California, Santa Cruz | Training-free generic object detection in 2-d and 3-d using locally adaptive regression kernels |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN109145970A (zh) * | 2018-08-06 | 2019-01-04 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159043B (zh) * | 2007-11-19 | 2010-12-15 | 中国科学院计算技术研究所 | 一种视觉目标上下文空间关系编码的***和方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN109800317B (zh) * | 2018-03-19 | 2022-03-11 | 中山大学 | 一种基于图像场景图谱对齐的图像查询回答方法 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
CN109063568B (zh) * | 2018-07-04 | 2020-12-22 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109670065A (zh) * | 2018-09-25 | 2019-04-23 | 平安科技(深圳)有限公司 | 基于图像识别的问答处理方法、装置、设备和存储介质 |
CN109635124B (zh) * | 2018-11-30 | 2021-04-23 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
CN109597998B (zh) * | 2018-12-20 | 2021-07-13 | 电子科技大学 | 一种视觉特征和语义表征联合嵌入的图像特征构建方法 |
-
2019
- 2019-06-10 CN CN201910496302.5A patent/CN110222770B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010080121A1 (en) * | 2008-12-18 | 2010-07-15 | The Regents Of The University Of California, Santa Cruz | Training-free generic object detection in 2-d and 3-d using locally adaptive regression kernels |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN109145970A (zh) * | 2018-08-06 | 2019-01-04 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于层级注意力多通道卷积双向GRU的问题分类研究;余本功;朱梦迪;;数据分析与知识发现(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222770A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222770B (zh) | 一种基于组合关系注意力网络的视觉问答方法 | |
US20220222920A1 (en) | Content processing method and apparatus, computer device, and storage medium | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN107273490B (zh) | 一种基于知识图谱的组合错题推荐方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN109918491B (zh) | 一种基于知识库自学习的智能客服问句匹配方法 | |
CN104408153B (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN110377710A (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN111461190A (zh) | 一种基于深度卷积神经网络的非均衡船舶分类方法 | |
CN108647233A (zh) | 一种用于问答***的答案排序方法 | |
CN109086770B (zh) | 一种基于精准尺度预测的图像语义分割方法及模型 | |
CN114241273B (zh) | 基于Transformer网络和超球空间学习的多模态图像处理方法及*** | |
CN108960330A (zh) | 基于快速区域卷积神经网络的遥感图像语义生成方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN109670576A (zh) | 一种多尺度视觉关注图像描述方法 | |
CN108776832A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN106228139A (zh) | 一种基于卷积网络的表观年龄预测算法及其*** | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、***和介质 | |
Cao et al. | Deep multi-view learning to rank | |
CN115391520A (zh) | 一种文本情感分类方法、***、装置及计算机介质 | |
Guan et al. | Strip steel defect classification using the improved GAN and EfficientNet | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN116844039A (zh) | 一种联合多注意的跨尺度遥感图像耕地提取方法 | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |