CN110717431B - 一种结合多视角注意力机制的细粒度视觉问答方法 - Google Patents

一种结合多视角注意力机制的细粒度视觉问答方法 Download PDF

Info

Publication number
CN110717431B
CN110717431B CN201910927585.4A CN201910927585A CN110717431B CN 110717431 B CN110717431 B CN 110717431B CN 201910927585 A CN201910927585 A CN 201910927585A CN 110717431 B CN110717431 B CN 110717431B
Authority
CN
China
Prior art keywords
attention
image
question
weight
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910927585.4A
Other languages
English (en)
Other versions
CN110717431A (zh
Inventor
彭淑娟
李磊
柳欣
范文涛
钟必能
杜吉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910927585.4A priority Critical patent/CN110717431B/zh
Publication of CN110717431A publication Critical patent/CN110717431A/zh
Application granted granted Critical
Publication of CN110717431B publication Critical patent/CN110717431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种结合多视角注意力机制的细粒度视觉问答方法,充分考虑到问题具体语义的导向作用,提出一种多视角注意力模型,能够有效选择出与当前任务目标(问题)相关的多个显著目标区域,从多个视角学习获取图像和问题文本中与答案有关的区域信息,提取出问题语义引导下的图像中的区域显著性特征,具有更细粒度的特征表达,并对图像中存在多个重要语义表达区域的情况表现,具有较强的刻画能力,增加了多视角注意力模型的有效性和全面性,从而有效加强图像区域显著特征和问题特征的语义关联性,以提升视觉问答的语义理解的准确性和全面性。采用本发明所述的方法进行视觉问答任务,步骤简单、效率高、准确率高,完全可以用于商业,市场前景较佳。

Description

一种结合多视角注意力机制的细粒度视觉问答方法
技术领域
本发明涉及计算机视觉与自然语言处理技术领域,更具体地说,涉及一种结合多视角注意力机制的细粒度视觉问答方法。
背景技术
随着计算机视觉和自然语言处理的快速发展,视觉问答***成为人工智能越来越热门的研究领域之一。视觉问答技术是一项新兴课题,其任务是结合计算机视觉和自然语言处理两个学科领域,把给定的图像和与图像相关的自然语言问题作为输入,生成一个自然语言答案作为输出。视觉问答是人工智能领域重点的应用方向,通过模拟真实世界的情景,视觉问答可以帮助存在视觉障碍的用户进行实时的人机交互。
本质上,视觉问答***被视为是一个分类任务,常用做法是根据已知的图片和问题抽取图片和问题特征,然后通过融合图片特征和问题特征来进行分类获取问答结果。近年来,视觉问答在计算机视觉和自然语言处理领域引起了广泛的关注。由于视觉问答的相对复杂性以及对图像和文本处理的需求,现有的一些方法在准确率上面还有一定的欠缺,还面临着较大的挑战。
在实际应用中,视觉问答***常常面临着图像的高维度和噪声影响,这些噪声会影响算法对答案的预测。因此,有效的视觉问答模型能需要挖掘到图像中与问题语义一致的结构化特征及语义相关性部分进行细粒度预测。
视觉注意力模型是利用计算机模拟人类视觉注意力机制得到一幅图像中最容易引起人们注意的部分,即图像的显著区域。在视觉问答中,大多数使用单一注意力机制模型的方法常常忽略图像结构化语义的区别,并对图像中存在多个重要区域的情况表现有些不足,从而这类方法带来的注意力机制不可避免的会影响视觉问答准确性。
研究发现,当前已有大多数视觉问答方法都是通过问题和整张图片去预测问题语义答案,却没有考虑到问题具体语义的导向作用,因此,这些模型学习到的图像区域特征与问题特征在语义空间上的关联性较弱。
综上,现有技术中,有效的视觉问答方法仍然有待改善。
发明内容
本发明的目的在于克服现有技术的不足,提供一种结合多视角注意力机制的细粒度视觉问答方法,可以有效提高视觉语义信息提取的准确度和全面性,并降低冗余数据和噪音数据的影响,从而提升视觉问答***的细粒度识别能力与对复杂问题的判断,并一定程度上提升视觉问答***的准确率与模型的可解释性。
本发明的技术方案如下:
一种结合多视角注意力机制的细粒度视觉问答方法,步骤如下:
1)输入图像,提取图像特征;输入问题文本,提取问题特征;
2)将图像特征、问题特征输入多视角注意力模型,计算图像的注意力权重,通过注意力权重对步骤1)的图像特征进行加权运算,得到图像细粒度特征;
3)将图像细粒度特征与问题特征进行融合,得到融合特征;
4)将融合特征输入分类器,预测得到答案。
作为优选,所述的多视角注意力模型包括上层注意力模型、下层注意力模型,通过上层注意力模型获得单一注意力权重,通过下层注意力模型获得显著性注意力权重,显著性注意力权重体现图像中的不同目标区域对应不同的注意力资源。
作为优选,获得单一注意力权重的方法如下:
输入图像特征、问题特征至上层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,利用激活函数ReLu规范化向量;然后利用哈达码乘积融合,再依次输入两层全连接层进行处理学习参数,处理学习后的参数
Figure BDA0002219333860000021
最后使用softmax函数归一化权值,得到单一注意力权重/>
Figure BDA0002219333860000022
其中,
Figure BDA0002219333860000023
为图像特征,/>
Figure BDA0002219333860000024
为问题特征,
Figure BDA0002219333860000025
为上层注意力模型待学习的权重参数,K为图像特征的空间区域个数,T为选取的问题特征长度,d为网络层中隐藏神经元的个数,h为该层设置的输出维度,ReLu是神经网络中的激活函数,其具体形式可以表达为f(x)=max(0,x)。
作为优选,获得显著性注意力权重的方法如下:
输入图像特征、问题特征至下层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,再计算关联矩阵Ci=ReLu(qi TWbVi);其中,
Figure BDA0002219333860000031
为下层注意力模型待学习的权重参数,/>
Figure BDA0002219333860000032
为获取的关联矩阵;
将关联矩阵作为特征与问题特征相乘,并与输入的图像特征融合,融合后的参数为
Figure BDA0002219333860000033
最后使用softmax函数归一化权值,输出显著性注意力权重/>
Figure BDA0002219333860000034
其中,
Figure BDA0002219333860000035
为下层注意力模型待学习的权重参数。
作为优选,基于单一注意力权重、显著性注意力权重计算图像的注意力权重,具体如下:
Figure BDA0002219333860000036
其中,β1和β2为上层注意力模型、下层注意力模型的权重比超参数。
作为优选,步骤3)中,将图像细粒度特征与问题特征分别通过非线性层fv、fq,在非线性层fv、fq中利用激活函数ReLu规范化向量;然后利用哈达码乘积融合,得到融合特征
Figure BDA0002219333860000037
作为优选,步骤4)中,融合特征通过非线性层fo,在通过非线性层fo中利用激活函数ReLu规范化向量;然后使用线性映射wo来预测答案的候选得分
Figure BDA0002219333860000038
最后,选取得分更高的输出;
其中,σ是sigmoid激活函数,wo是待学习的权重参数。
作为优选,sigmoid激活函数将最终得分规范化为(0-1)区间,最后一个阶段作为预测每个候选答案正确性的逻辑回归,其目标函数为
Figure BDA0002219333860000039
其中,z和k分别覆盖M个训练问题的N个候选答案,szk是问题的真实答案。
作为优选,步骤1)中,使用Faster-RCNN标准模型对输入的图像Ii进行特征提取,得到深度表达的图像特征Vi=FasterRCNN(Ii)。
作为优选,步骤1)中,输入问题文本Qi,先使用空格和标点将问题文本Qi分成单词,再通过预训练的GloVe词嵌入方法进行初始化,得到编码后的第i个指定问题句子
Figure BDA0002219333860000041
其中,xt (i)表示每个单词在词汇表中的位第t个单词;
然后,将
Figure BDA0002219333860000042
输入到LSTM网络中,取出最后一层的输出qi作为/>
Figure BDA0002219333860000043
的特征表达,得到问题特征qi
本发明的有益效果如下:
本发明所述的结合多视角注意力机制的细粒度视觉问答方法,提出一种多视角注意力模型,能够有效选择出与当前任务目标(问题)相关的多个显著目标区域,提取出问题语义引导下的图像中的区域显著性特征,具有更细粒度的特征表达,并对图像中存在多个重要语义表达区域的情况表现,具有较强的刻画能力。
本发明充分考虑到问题具体语义的导向作用,从多个视角来学习获取图像和问题文本中与答案有关的区域信息,增加了多视角注意力模型的有效性和全面性,从而有效加强图像区域显著特征和问题特征的语义关联性,以提升视觉问答的语义理解的准确性和全面性。
采用本发明所述的方法进行视觉问答任务,步骤简单、效率高、准确率高,完全可以用于商业,市场前景较佳。
附图说明
图1是本发明的流程示意图;
图2是多视角注意力模型的示意图;
图3是注意力权重可视化热力图(简单的注意任务);
图4是注意力权重可视化热力图(任务需要高度集中于图像中的多个位置);
图5是本发明的多视角注意力模型取得的结果与目前较为先进的方法的对比曲线图;
图6是最终模型性能培训的损失函数的曲线图;
图7是最终模型性能培训的培训验证分数的曲线图。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明为了解决现有技术存在的不足,提供一种结合多视角注意力机制的细粒度视觉问答方法。视觉问答可以被视为一种多任务分类问题,每个答案就可以看作为一种分类种类。一般视觉问答***中,使用One-Hot方法对答案进行编码,来获得每个答案对应的One-Hot向量,构成答案向量表。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值,然后每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
如图1所示,本发明所述的结合多视角注意力机制的细粒度视觉问答方法,大致步骤如下:
1)输入图像,提取图像特征;输入问题文本,提取问题特征;
2)将图像特征、问题特征输入多视角注意力模型,计算图像的注意力权重,通过注意力权重对步骤1)的图像特征进行加权运算,得到图像细粒度特征;
3)将图像细粒度特征与问题特征进行融合,得到融合特征;
4)将融合特征输入分类器,预测得到答案。
本实施例中,步骤1)中,使用Faster-RCNN标准模型对输入的图像Ii进行特征提取,得到图像特征Vi=FasterRCNN(Ii)。令K为图像特征的空间区域个数,则图像特征
Figure BDA0002219333860000051
可以进一步表示成/>
Figure BDA0002219333860000052
其中,/>
Figure BDA0002219333860000053
是Faster-RCNN提取的第k个区域特征,d为网络层中隐藏神经元的个数并同时表示输出维度。
步骤1)中,输入问题文本Qi后,先使用空格和标点将问题文本Qi分成单词,再通过预训练的GloVe词嵌入方法(Global Vectors for Word Representation)进行初始化,得到第i个指定问题句子
Figure BDA0002219333860000054
的编码形式,其中,xt (i)表示每个单词在词汇表中的位第t个单词;
然后,将
Figure BDA0002219333860000055
输入到LSTM网络中,具体地,使用含有1280个隐藏单元的标准LSTM网络,取出最后一层的输出qi作为/>
Figure BDA0002219333860000061
的特征表达,得到问题特征qi
然后,针对获取的图像特征Vi以及编码的问题特征qi,将两种特征输入多视角注意力模型,计算图像的注意力权重。
视觉注意力机制从本质上可以从图像中选择出对当前任务目标更关键的目标区域,从而对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,抑制其他无用信息。在视觉问答任务中,语义表达具有多样性。特别地,有一些问题需要模型理解图像中多个目标对象之间的语义表达。因此,单一视觉注意力模型不能够有效挖掘图像中不同语义对象与问题语义之间的关联性;
为了解决这个问题,本发明提供了一种多视角注意力模型,使用两种不同的注意力机制进行联合学习问题中可以关注到的不同语义的重要区域部分,以获得图像的细粒度注意力特征图。使用多视角注意力模型关注图像得到的图像注意力权重,并利用该权重进行图像特征加权得到累积向量作为最终的图像特征表示,即图像细粒度特征,能够较好地与问题语义进行关联。
如图2所示,所述的多视角注意力模型包括上层注意力模型、下层注意力模型,通过上层注意力模型获得单一注意力权重,通过下层注意力模型获得显著性注意力权重,显著性注意力权重体现图像中的不同目标区域对应不同的注意力资源。
具体地,上层注意力模型中,获得单一注意力权重的方法如下:
输入图像特征、问题特征至上层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,利用激活函数ReLu规范化向量;然后利用哈达码乘积(Hardmard product)融合,再依次输入两层全连接层进行处理学习参数,处理学习后的参数
Figure BDA0002219333860000062
其中,/>
Figure BDA0002219333860000063
为图像特征,/>
Figure BDA0002219333860000064
为问题特征,/>
Figure BDA0002219333860000065
为上层注意力模型待学习的权重参数,K为图像特征的空间区域个数,T为选取的问题特征长度,d为网络层中隐藏神经元的个数,h为该层设置的输出维度,ReLu是神经网络中的激活函数,其具体形式可以表达为f(x)=max(0,x);
最后使用softmax函数归一化权值,得到单一注意力权重
Figure BDA0002219333860000066
考虑单一注意力权重
Figure BDA0002219333860000071
为softmax权值,如果部分权值数值较大,其余部分势必权值较小。由于一幅图像常常含有多个不同语义,并且这些语义常常在不同区域进行视觉语义表达。单一注意力权重/>
Figure BDA0002219333860000072
常常会忽略一些具有重要语义的区域信息。为补充上层注意力模型的注意信息的缺失部分,本发明进一步提出了下层注意力模型。下层注意力模型同时兼顾图像与问题语义的关联性,达到问题引导多视角注意力模型的学习机制,增加特征细粒度挖掘能力,本发明通过计算图像与问题特征在语义的相似性来引导图像区域的注意力的学习。
具体地,下层注意力模型中,获得显著性注意力权重的方法如下:
输入图像特征、问题特征至下层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,再计算关联矩阵Ci=ReLu(qi TWbVi);其中,
Figure BDA0002219333860000073
为下层注意力模型待学习的权重参数,/>
Figure BDA0002219333860000074
为获取的关联矩阵;
将关联矩阵作为特征与问题特征相乘,并与输入的图像特征融合,融合后的参数为
Figure BDA0002219333860000075
最后使用softmax函数归一化权值,输出显著性注意力权重/>
Figure BDA0002219333860000076
其中,/>
Figure BDA0002219333860000077
为下层注意力模型待学习的权重参数,参数维度设置通上层注意力模型一致,K为图像特征的空间区域个数,T为选取的问题特征长度,d为网络层中隐藏神经元的个数,h为该层的输出维度,ReLu是神经网络中的激活函数。
基于单一注意力权重、显著性注意力权重计算图像的注意力权重,具体如下:
Figure BDA0002219333860000078
其中,β1和β2为上层注意力模型、下层注意力模型的权重比参数。实际应用中,可以通过调试参数来分配上层注意力模型、下层注意力模型之间的权重,以达到更好的效果。
图像特征Vi可以进一步表示K个图像空间区域特征的集合形式
Figure BDA0002219333860000079
进一步,将注意力权重ai与每一个空间区域图像特征相乘加权,从而得到图像细粒度特征
Figure BDA00022193338600000710
/>
步骤3)中,将图像细粒度特征与问题特征分别通过非线性层fv、fq,在非线性层fv、fq中利用激活函数ReLu规范化向量;然后利用哈达码乘积融合,得到融合特征
Figure BDA0002219333860000081
进一步地,视觉问答问题是为一个多标签分类问题,进而,步骤4)中,融合特征通过非线性层fo,在通过非线性层fo中利用激活函数ReLu规范化向量;然后使用线性映射wo来预测答案的候选得分
Figure BDA0002219333860000082
最后,选取得分更高的输出;
其中,σ是sigmoid激活函数,wo是待学习的权重参数。
作为优选,sigmoid激活函数将最终得分规范化为(0-1)区间,最后一个阶段作为预测每个候选答案正确性的逻辑回归,其目标函数为
Figure BDA0002219333860000083
其中,指数z和k分别覆盖M个训练问题的N个候选答案,szk是问题的真实答案。
与其他常用的视觉问答利用softmax分类器相比,本发明利用的逻辑回归分类更加有效。Sigmoid函数使用软分数(soft target)作为目标结果,提供了更加丰富的训练信号,可以有效捕捉真实答案中偶尔出现的不确定性。
为了更好的观察注意力模型如何关注到图像的显著区域部分,在获得单一注意力权重、显著性注意力权重的attention map(au,ab)后,使用python中的matplotlib画图库的heatmap函数将注意力map可视化为矩阵热图(matrix heatmap),如图3、图4所示。
图3、图4是多视角注意力模型分别对2张不同任务图像的上层注意力模型、下层注意力模型的表现图,attention1是上层注意力模型的注意力可视图,attention2是下层注意力模型的注意力可视图。从注意力的热度图可以看出,添加的下层注意力模型能够学习输入图像的不同重要区域。从图3可以看出,对于一个简单的注意任务,上层注意力模型、下层注意力模型都能够在图像中找到正确的位置。然而,在图4中,可以看到,当任务需要高度集中于图像中的多个位置时,下层注意力模型关注到了与上层注意力模型不同的部分,从而提高了多视角注意力模型的准确性,本发明的多视角注意力模型比现有技术的模型具有优势。
测试数据集介绍:VQA v2数据集(Antol S,Agrawal A,Lu J,et al.Vqa:Visualquestion answering[C].Proceedings of the IEEE International Conference onComputer Vision.2015:2425-2433.)是一个大规模的视觉问答数据集,这个数据集中所有的问题和答案都由人为注释。在数据集中有443,757个训练问题,214,354个验证问题和447,793个测试问题。每张图像和三个问题相关,对于每个问题,注释者提供了十个答案。在标准视觉问答任务重,这个数据集中的问题常常分为:Yes/no,Number和other三种类型的问题。
进一步,为验证本发明的有效性,将本发明与2017VQA挑战赛冠军(Anderson P,HeX,Buehler C,et al.Bottom-up and top-down attention for image captioning andvisual question answering.arXiv preprint arXiv:1707.07998,2017.)的结果做了对比,如图5所示,本发明在复现的***码基础上,将本发明的多视角注意力模型替换原来的简单注意力模型,本发明的多视角注意力模型最终评分为64.35%,在准确率的评价与所述论文相比,具有约1.2%的提升。
在实验中一些基本参数设计如下,基本学习率设置为α=0.0007,在每个LSTM层后随机失活率设置为dropout=0.3,答案筛选设置N=3000。全连接层的隐藏神经元设置num_hid=1024,批训练的数量设置batch_size=512。单一注意力权重、显著性注意力权重的权重分配为β1=0.7,β2=0.3。
如图6所示,模型的损失函数值(loss)随着训练周期的增加不断减小收敛的过程;如图7所示,模型准确率随着训练周期的增长分别在训练集与测试集上的表现。
本发明在test-dev情况下与VQA任务中比较有代表性的方法在公开标准数据集VQA v2上的对比,如表1所示。
表1
Figure BDA0002219333860000091
特别的,将数据以问题类型为标准分为3个种类进行评估,然后计算出总的评估结果。问题种类分别为Y/N是否问题,Number数量问题,Others其他开放性问题。表中的分数是模型针对不同类型的问题回答结果的准确率,数值越大准确率越高。从表中可以看出,本发明的多视角注意力模型对不同任务都达到了较好的效果。
特别的,由于本发明的多视角注意力模型加强细粒度的特征表达,对物体的检测,识别能力提高,在Number这个一类型的评价上较之前的方法有着不错的提升。模型总的准确率评价结果更是优于大部分现存方法的结果。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (7)

1.一种结合多视角注意力机制的细粒度视觉问答方法,其特征在于,步骤如下:
1)输入图像,提取图像特征;输入问题文本,提取问题特征;
2)将图像特征、问题特征输入多视角注意力模型,计算图像的注意力权重,通过注意力权重对步骤1)的图像特征进行加权运算,得到图像细粒度特征;
3)将图像细粒度特征与问题特征进行融合,得到融合特征;
4)将融合特征输入分类器,预测得到答案;
所述的多视角注意力模型包括上层注意力模型、下层注意力模型,通过上层注意力模型获得单一注意力权重,通过下层注意力模型获得显著性注意力权重,显著性注意力权重体现图像中的不同目标区域对应不同的注意力资源;
获得单一注意力权重的方法如下:
输入图像特征、问题特征至上层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,利用激活函数ReLu规范化向量;然后利用哈达码乘积融合,再依次输入两层全连接层进行处理学习参数,处理学习后的参数
Figure FDA0003980779750000011
最后使用softmax函数归一化权值,得到单一注意力权重
Figure FDA0003980779750000012
其中,
Figure FDA0003980779750000013
为图像特征,
Figure FDA0003980779750000014
为问题特征,
Figure FDA0003980779750000015
Figure FDA0003980779750000016
为上层注意力模型待学习的权重参数,K为图像特征的空间区域个数,T为选取的问题特征长度,d为网络层中隐藏神经元的个数,h为该层设置的输出维度,ReLu是神经网络中的激活函数,其具体形式可以表达为f(x)=max(0,x);
获得显著性注意力权重的方法如下:
输入图像特征、问题特征至下层注意力模型,分别使用一层全连接层将图像特征、问题特征的数据投影到相同维度空间,再计算关联矩阵Ci=ReLu(qi TWbVi);其中,
Figure FDA0003980779750000017
为下层注意力模型待学习的权重参数,
Figure FDA0003980779750000018
为获取的关联矩阵;
将关联矩阵作为特征与问题特征相乘,并与输入的图像特征融合,融合后的参数为
Figure FDA0003980779750000021
最后使用softmax函数归一化权值,输出显著性注意力权重
Figure FDA0003980779750000022
其中,
Figure FDA0003980779750000023
为下层注意力模型待学习的权重参数。
2.根据权利要求1所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,基于单一注意力权重、显著性注意力权重计算图像的注意力权重,具体如下:
Figure FDA0003980779750000024
其中,β1和β2为上层注意力模型、下层注意力模型的权重比超参数。
3.根据权利要求2所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,步骤3)中,将图像细粒度特征与问题特征分别通过非线性层fv、fq,在非线性层fv、fq中利用激活函数ReLu规范化向量;然后利用哈达码乘积融合,得到融合特征
Figure FDA0003980779750000025
4.根据权利要求3所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,步骤4)中,融合特征通过非线性层fo,在通过非线性层fo中利用激活函数ReLu规范化向量;然后使用线性映射wo来预测答案的候选得分
Figure FDA0003980779750000026
最后,选取得分更高的输出;
其中,σ是sigmoid激活函数,wo是待学习的权重参数。
5.根据权利要求4所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,sigmoid激活函数将最终得分规范化为(0-1)区间,最后一个阶段作为预测每个候选答案正确性的逻辑回归,其目标函数为
Figure FDA0003980779750000027
其中,z和k分别覆盖M个训练问题的N个候选答案,szk是问题的真实答案。
6.根据权利要求1所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,步骤1)中,使用Faster-RCNN标准模型对输入的图像Ii进行特征提取,得到深度表达的图像特征Vi=FasterRCNN(Ii)。
7.根据权利要求1所述的结合多视角注意力机制的细粒度视觉问答方法,其特征在于,步骤1)中,输入问题文本Qi,先使用空格和标点将问题文本Qi分成单词,再通过预训练的GloVe词嵌入方法进行初始化,得到编码后的第i个指定问题句子
Figure FDA0003980779750000031
其中,xt (i)表示每个单词在词汇表中的位第t个单词;
然后,将
Figure FDA0003980779750000032
输入到LSTM网络中,取出最后一层的输出qi作为
Figure FDA0003980779750000033
的特征表达,得到问题特征qi
CN201910927585.4A 2019-09-27 2019-09-27 一种结合多视角注意力机制的细粒度视觉问答方法 Active CN110717431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910927585.4A CN110717431B (zh) 2019-09-27 2019-09-27 一种结合多视角注意力机制的细粒度视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910927585.4A CN110717431B (zh) 2019-09-27 2019-09-27 一种结合多视角注意力机制的细粒度视觉问答方法

Publications (2)

Publication Number Publication Date
CN110717431A CN110717431A (zh) 2020-01-21
CN110717431B true CN110717431B (zh) 2023-03-24

Family

ID=69211080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910927585.4A Active CN110717431B (zh) 2019-09-27 2019-09-27 一种结合多视角注意力机制的细粒度视觉问答方法

Country Status (1)

Country Link
CN (1) CN110717431B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325000B (zh) * 2020-01-23 2021-01-26 北京百度网讯科技有限公司 语言生成方法、装置及电子设备
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN111860653A (zh) * 2020-07-22 2020-10-30 苏州浪潮智能科技有限公司 一种视觉问答方法、装置及电子设备和存储介质
CN111984772B (zh) * 2020-07-23 2024-04-02 中山大学 一种基于深度学习的医疗影像问答方法及***
CN114092783A (zh) * 2020-08-06 2022-02-25 清华大学 一种基于注意力机制连续视角的危险品检测方法
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112163608B (zh) * 2020-09-21 2023-02-03 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN112488111B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112732879B (zh) * 2020-12-23 2022-05-10 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN112905819B (zh) * 2021-01-06 2022-09-23 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN113761153B (zh) * 2021-05-19 2023-10-24 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN113223018A (zh) * 2021-05-21 2021-08-06 信雅达科技股份有限公司 细粒度图像分析处理方法
CN113407794B (zh) * 2021-06-01 2023-10-31 中国科学院计算技术研究所 一种抑制语言偏差的视觉问答方法及***
CN113436094B (zh) * 2021-06-24 2022-05-31 湖南大学 一种基于多视角注意力机制的灰度图像自动上色方法
CN113408511B (zh) * 2021-08-23 2021-11-12 南开大学 一种确定注视目标的方法、***、设备及存储介质
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113779298B (zh) * 2021-09-16 2023-10-31 哈尔滨工程大学 一种基于复合损失的医学视觉问答方法
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
CN114417044B (zh) * 2022-01-19 2023-05-26 中国科学院空天信息创新研究院 图像问答的方法及装置
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的答案选择方法研究;熊雪等;《智能计算机与应用》;20181105(第06期);全文 *

Also Published As

Publication number Publication date
CN110717431A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
Yan Computational methods for deep learning
CN110837846B (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类***
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Wang et al. Spatial–temporal pooling for action recognition in videos
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
AU2019101138A4 (en) Voice interaction system for race games
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN110705490A (zh) 视觉情感识别方法
Xia et al. Evaluation of saccadic scanpath prediction: Subjective assessment database and recurrent neural network based metric
CN111898704A (zh) 对内容样本进行聚类的方法和装置
Yan Computational methods for deep learning: theory, algorithms, and implementations
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
Gong et al. Human interaction recognition based on deep learning and HMM
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
Tamaazousti On the universality of visual and multimodal representations
Vijayaraju Image retrieval using image captioning
Alghalibi et al. Deep attention learning mechanisms for social media sentiment image revelation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant