CN110889340A - 一种基于迭代注意力机制的视觉问答模型 - Google Patents
一种基于迭代注意力机制的视觉问答模型 Download PDFInfo
- Publication number
- CN110889340A CN110889340A CN201911099046.2A CN201911099046A CN110889340A CN 110889340 A CN110889340 A CN 110889340A CN 201911099046 A CN201911099046 A CN 201911099046A CN 110889340 A CN110889340 A CN 110889340A
- Authority
- CN
- China
- Prior art keywords
- attention
- question
- iterative
- follows
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迭代注意力机制的视觉问答模型,包括三个步骤:步骤S1,构建双重注意力机制;步骤S2,迭代模型内部结构;步骤S3,答案预测;本发明使用VGGNet提取图像的特征;将问题和答案用双向LSTM方式编码;把第一部分和第二部分的结果作为输入即以图片特征向量和问题特征向量作为输入,首先两个向量分别加入注意力机制,经过计算后得到两个注意力特征向量,再进行融合得到新的图片和问题特征向量;迭代进行第三部分工作内容降低关注区域粒度,得到最后图片和问题特征向量;利用上述步骤中得到的图片和问题的特征向量预测答案分布。本发明的有益效果是:关注点在问题上,且关注区域精确,预测答案准确。
Description
技术领域
本发明涉及到基于计算机的视觉技术领域,具体是一种基于迭代注意力机制的视觉问答模型。
背景技术
视觉问答(VQA)的关键解决方案存在于如何提取和融合从输入图像和问题中提取的视觉和语言特征;现有方法的通用框架是,视觉和语言特征在是在初始步骤从图像和问题中独立提取的,而在以后的步骤中将它们融合在一起来计算和预测;在早期研究中,研究人员采用了简单的融合方法,例如视觉和语言特征的连接、求和、乘积,然后将其馈入完全连接的层以预测答案。
到目前为止,VQA在文献中的所有关注模型都集中在视觉注意的问题上,而没有关注问题上;考虑一下这样一个问题“how many cats are in this image?”和“how manycats can you see in this image?”的问题;它们具有相同的含义,这两个问题基本上由“howmany cats”就可以确定,可见使用“howmany cats”的模型比使用与答案无关单词的模型更健壮。
此外,最近提出的大多数视觉问答模型都基于神经网络;一种常用的方法是使用卷积神经网络(CNN)提取全局图像特征向量,并使用长短期记忆网络(LSTM)将相应的问题编码为特征向量,然后将它们进行处理并预测答案;尽管这些方法已经有了比较好的结果,但是当这些答案与图像中的一些细粒度区域相关时,这些模型通常无法给出精确答案。
上述不足可简化为两点:
①现有关注模型的关注点都集中在视觉上,而没有在问题上
②利用注意力机制时,关注区域不精确,尤其对一些细粒度区域;
③上述不足,造成预测问题的答案不够准确。
所以现有的技术需要一种关注点在问题上,且关注区域精确,预测答案准确的一种基于迭代注意力机制的视觉问答模型。
发明内容
本发明的目的在于提供一种基于迭代注意力机制的视觉问答模型,以解决上述背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于迭代注意力机制的视觉问答模型,包括以下步骤:
步骤S1:构建双重注意力机制;
步骤S2:迭代模型内部结构,即每次图像和问题的融合方法;
步骤S3:答案预测。
作为本发明进一步的方案:所述步骤S1包括:
首先,利用VggNet提取图像特征,考虑到后边用到迭代模型,令其为Ql,利用Bi-LSTM对问题编码令其为Vl,创建两个注意力图,Ql和Vl的计算公式如下:
以上AQl和BVl的每一行包含单个注意图;
用softmax函数通过按列和按行归一化,在每个矩阵创建注意力图,公式如下;
本发明使用乘法(或点积)注意力时,如下所述,多个特征的平均融合相当于求注意力图的平均值,公式如下:
作为本发明进一步的方案:所述步骤S2包括:
将连接后的向量通过单层网络投射会d维度空间,再通过ReLU激活函数和残差连接;公式如下:
作为本发明进一步的方案:所述步骤S3包括:
本发明用迭代模型的最后一次输出QL和VL来预测答案分布;由于它们包含了N个问题词和T个图像区域的表示,本发明首先对它们进行自注意力机制,以获得整个问题和图像的聚合表示;针对QL的操作如下:
计算“分数”,sqL1,…,sqLN分别是qL1,…,qLN的分数,通过在隐藏层中应用具有双层MLP来实现;
用MLP计算预定义答案的分数,这是最近研究中广泛使用的方法,公式如下:
与现有技术相比,本发明的有益效果是:
本发明针对现有视觉问答模型未对问题单词采取注意力机制来排除无关单词的干扰,以及利用注意力机制时,关注区域不精确,创新性的构建了双重注意力机制以及迭代模型用以在问题上利用注意力机制并降低关注区域粒度;具体思想是,先每个问题单词对应的图像区域上生成注意力特征向量,并对每个图像区域对应问题单词上生成注意力特征向量;然后,它通过ReLU和残差连接的单层网络执行注意力特征向量的计算、多模式表示的连接及其转换;这些计算被封装到我们称为迭代注意机制模型中,该模型考虑了所有图像区域和所有问题单词之间的交互,可以迭代形成层次结构,实现图像与问题之间的多步交互以降低关注区域粒度,最终获得更准确的关注区域及关注单词,再进行答案预测;通过实验证明该模型提高了预测答***性。
附图说明
图1是本发明一种基于迭代注意力机制的视觉问答模型的步骤图。
图2是本发明一种基于迭代注意力机制的视觉问答模型的流程效果图。
图3是本发明一种基于迭代注意力机制的视觉问答模型的步骤S1示意图。
图4是本发明一种基于迭代注意力机制的视觉问答模型的步骤S2示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~4,本发明实施例中,一种基于迭代注意力机制的视觉问答模型,包括以下步骤:
步骤S1:构建双重注意力机制;
步骤S2:迭代模型内部结构,即每次图像和问题的融合方法;
步骤S3:答案预测。
所述步骤S1包括:
首先,利用VggNet提取图像特征,考虑到后边用到迭代模型,令其为Ql,利用Bi-LSTM对问题编码令其为Vl,创建两个注意力图,Ql和Vl的计算公式如下:
以上AQl和BVl的每一行包含单个注意图;
用softmax函数通过按列和按行归一化,在每个矩阵创建注意力图,公式如下;
本发明使用乘法(或点积)注意力时,如下所述,多个特征的平均融合相当于求注意力图的平均值,公式如下:
所述步骤S2包括:
将连接后的向量通过单层网络投射会d维度空间,再通过ReLU激活函数和残差连接;公式如下:
所述步骤S3包括:
本发明用迭代模型的最后一次输出QL和VL来预测答案分布;由于它们包含了N个问题词和T个图像区域的表示,本发明首先对它们进行自注意力机制,以获得整个问题和图像的聚合表示;针对QL的操作如下:
计算“分数”,sqL1,…,sqLN分别是qL1,…,qLN的分数,通过在隐藏层中应用具有双层MLP来实现;
用MLP计算预定义答案的分数,这是最近研究中广泛使用的方法,公式如下:
在本发明的实施中,在COCO-QA数据集上测试本发明模型和其他模型效果的对比,通过实验证明本发明的模型优于其他模型,测试效果如下:
由此证明,本发明可以帮助视觉障碍的人理解视觉信息,未来可以将视觉问答应用于图像检索***中,帮助用户检索需要的图像。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内;不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种基于迭代注意力机制的视觉问答模型,其特征在于:包括以下步骤:
步骤S1:构建双重注意力机制;
步骤S2:迭代模型内部结构,即每次图像和问题的融合方法;
步骤S3:答案预测。
2.根据权利要求1所述的一种基于迭代注意力机制的视觉问答模型,其特征在于:所述步骤S1包括:
首先,利用VggNet提取图像特征,考虑到后边用到迭代模型,令其为Ql,利用Bi-LSTM对问题编码令其为Vl,创建两个注意力图,Ql和Vl的计算公式如下:
以上AQl和BVl的每一行包含单个注意图;
用softmax函数通过按列和按行归一化,在每个矩阵创建注意力图,公式如下;
本发明使用乘法(或点积)注意力时,如下所述,多个特征的平均融合相当于求注意力图的平均值,公式如下:
3.根据权利要求1所述的一种基于迭代注意力机制的视觉问答模型,其特征在于:所述步骤S2包括:
将连接后的向量通过单层网络投射会d维度空间,再通过ReLU激活函数和残差连接;公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099046.2A CN110889340A (zh) | 2019-11-12 | 2019-11-12 | 一种基于迭代注意力机制的视觉问答模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099046.2A CN110889340A (zh) | 2019-11-12 | 2019-11-12 | 一种基于迭代注意力机制的视觉问答模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110889340A true CN110889340A (zh) | 2020-03-17 |
Family
ID=69747275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911099046.2A Pending CN110889340A (zh) | 2019-11-12 | 2019-11-12 | 一种基于迭代注意力机制的视觉问答模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889340A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680484A (zh) * | 2020-05-29 | 2020-09-18 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和*** |
CN111858849A (zh) * | 2020-06-10 | 2020-10-30 | 南京邮电大学 | 一种基于密集协注意力模块的vqa方法 |
CN112036276A (zh) * | 2020-08-19 | 2020-12-04 | 北京航空航天大学 | 一种人工智能视频问答方法 |
-
2019
- 2019-11-12 CN CN201911099046.2A patent/CN110889340A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680484A (zh) * | 2020-05-29 | 2020-09-18 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和*** |
CN111680484B (zh) * | 2020-05-29 | 2023-04-07 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和*** |
CN111858849A (zh) * | 2020-06-10 | 2020-10-30 | 南京邮电大学 | 一种基于密集协注意力模块的vqa方法 |
CN112036276A (zh) * | 2020-08-19 | 2020-12-04 | 北京航空航天大学 | 一种人工智能视频问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220222920A1 (en) | Content processing method and apparatus, computer device, and storage medium | |
CN110222770B (zh) | 一种基于组合关系注意力网络的视觉问答方法 | |
CN108376132B (zh) | 相似试题的判定方法及*** | |
CN111061961A (zh) | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现*** | |
CN108647233A (zh) | 一种用于问答***的答案排序方法 | |
CN110889340A (zh) | 一种基于迭代注意力机制的视觉问答模型 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN112131261B (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN114818691A (zh) | 文章内容的评价方法、装置、设备及介质 | |
CN112699215B (zh) | 基于胶囊网络与交互注意力机制的评级预测方法及*** | |
Wu et al. | Multi-stage optimization model for hesitant qualitative decision making with hesitant fuzzy linguistic preference relations | |
CN113239209A (zh) | 基于RankNet-transformer的知识图谱个性化学习路径推荐方法 | |
CN112000788A (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN105677838A (zh) | 基于用户需求的用户档案创建、个性化搜索排名方法和*** | |
CN110008411A (zh) | 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN116662497A (zh) | 视觉问答数据处理方法、装置、计算机设备 | |
CN113157889A (zh) | 一种基于主题损失的视觉问答模型构建方法 | |
CN106021346A (zh) | 检索处理方法及装置 | |
CN112035567A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
Wang | Research on Online Education Resources Recommendation Based on Deep Learning | |
CN116702785B (zh) | 关系标签的处理方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200317 |
|
WD01 | Invention patent application deemed withdrawn after publication |