CN110727824B - 利用多重交互注意力机制解决视频中对象关系问答任务的方法 - Google Patents

利用多重交互注意力机制解决视频中对象关系问答任务的方法 Download PDF

Info

Publication number
CN110727824B
CN110727824B CN201910965556.7A CN201910965556A CN110727824B CN 110727824 B CN110727824 B CN 110727824B CN 201910965556 A CN201910965556 A CN 201910965556A CN 110727824 B CN110727824 B CN 110727824B
Authority
CN
China
Prior art keywords
video
question
attention mechanism
input
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910965556.7A
Other languages
English (en)
Other versions
CN110727824A (zh
Inventor
赵洲
张品涵
金韦克
陈默沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910965556.7A priority Critical patent/CN110727824B/zh
Publication of CN110727824A publication Critical patent/CN110727824A/zh
Application granted granted Critical
Publication of CN110727824B publication Critical patent/CN110727824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:针对于一段视频,获得帧级别视频特征;获得视频中对象的位置特征和外观特征;使用多重交互注意力机制,学习得到输入问题的表达;计算时空关系矩阵;使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;使用多重交互注意力机制,学习得到与问题相关的对象关系表达;在之前得到的帧级别视频表达和对象关系表达基础上,获取问题的答案。相比于一般视频问答解决方案,本发明利用新型注意力机制,能够更准确地反映视频中对象的关系,产生更加贴切的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

Description

利用多重交互注意力机制解决视频中对象关系问答任务的 方法
技术领域
本发明涉及视频问答答案生成领域,尤其涉及一种利用多重交互注意力机制解决视频中对象关系问答任务的方法。
背景技术
视觉问答是一项利用计算机视觉和自然语言处理技术的重要任务。给定自然语言问题和参考视觉对象(例如图像或视频),视觉问答的目标是自动地根据视觉内容回答问题。
在视频问答发展前,深度神经网络已经在图像问答领域取得了很大的成功,并且有了相对成熟的模型。视频问答可视为图像问答的延伸。然而,由于时间结构带来的复杂性,使视频问答变得更具挑战性,与图像问答相比,视频问答的研究发明相对较少。如何对视频的时间结构建模、如何处理视频信息的冗余以及如何获得多帧带来的信息,是目前视频问答领域面临的几大挑战。
现有方法主要关注时间注意力机制和记忆机制。Jang等人(Yunseok Jang,YaleSong,Youngjae Yu,Youngjin Kim,and Gunhee Kim.2017.Tgif-qa:Toward spatio-temporal reasoning in visual question answering.In IEEE Conference onComputer Vision and Pattern Recognition.2680–8.)提出了一种基于dual-LSTM的方法,同时应用空间注意力机制和时间注意力机制。Yu等人(Youngjae Yu,Hyungjin Ko,Jongwook Choi,and Gunhee Kim.2017.End-to-end concept word detection for videocaptioning,retrieval,and question answering.In IEEE Conference on ComputerVision and Pattern Recognition.3261–3269.)提出了一种高级别概念词检测器,它将视频作为输入,并生成一个概念词列表作为答案生成的有用语义先验。但是,上述大多数方法都依赖于RNN而不考虑对象之间的关系,无法有效过滤长视频中大量存在的冗余帧。本发明的目的在于解决现有技术中的问题,为了更好地获取视频中对象的关系,来对对象关系相关的问题做出回答。
发明内容
本发明提出了一种用于视频问答的新模型,称为多重交互网络(Multi-interaction network)。本发明所采用的具体技术方案是:
利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:
S1:针对一段视频,利用残差神经网络,获得帧级别视频特征;
S2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;
S3:使用多重交互注意力机制,得到输入问题表达;
S4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;
S5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;
S6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;
S7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。
进一步的,所述步骤S1具体为:
针对一段视频,将该视频输入训练好的残差神经网络,输出帧级别视频特征
Figure GDA0003396614890000021
其中M(f)代表视频的帧数,
Figure GDA0003396614890000022
代表视频第j帧的特征向量。
进一步的,所述步骤S2具体为:
针对一段视频,将该视频输入Mask-RCNN,输出视频中对象的位置特征
Figure GDA0003396614890000023
和外观特征
Figure GDA0003396614890000024
其中
Figure GDA0003396614890000025
Figure GDA0003396614890000026
分别表示视频中第i个对象的位置特征向量和外观特征向量,N是视频中检测到的对象数量;所述位置特征向量
Figure GDA0003396614890000027
是一个五维坐标,表示为(xi,yi,wi,hi,ti),其中xi和yi分别表示视频中第i个对象边界框中心点的横坐标和纵坐标,wi和hi分别表示视频中第i个对象边界框的宽度和高度,ti表示视频中第i个对象所属帧的序号。
进一步的,所述步骤S3具体为:
使用预训练的GloVe模型,得到问题的词嵌入w=(w1,w2,…,wn),其中n是问题的单词数,wj是第j个单词对应的词向量;再将词嵌入中的每一个词向量wj与对应的位置编码PEj相加得到单词级别输入问题表达W=(w1+PE1,w2+PE2,…wn+PEn);所述位置编码计算方法如下:
Figure GDA0003396614890000031
其中PEpos,i是位置编码PEpos的第i个元素;pos是位置编码的位置信息,这里是词向量wj的下标j;dmodel是位置编码的维度,这里与词向量的维度相等;
将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习输入问题的表示;在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影,分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入;在问题通道中经过前述处理后,得到输入问题表达;
所述多重交互注意力机制具体步骤如下,假设多头线性层的头数是1:
第一步,确定两个输入矩阵Q=(q1,q2,...,qi)和V=(v1,v2,...,vj),其中
Figure GDA0003396614890000032
Figure GDA0003396614890000033
第二步,创建张量
Figure GDA0003396614890000034
来表示两个输入矩阵的每列之间的相互作用,张量K的每列
Figure GDA0003396614890000035
计算方式如下:
Figure GDA0003396614890000036
其中
Figure GDA0003396614890000037
表示逐元素乘法,qi,
Figure GDA0003396614890000038
第三步,在张量K上使用卷积层,内核大小为sq×sv;在卷积运算期间,张量K将被分成不同的子张量
Figure GDA0003396614890000039
随着内核窗口的移动,得到不同的分段交互表示,形成张量P;
第四步,利用去卷积层将张量P恢复到原始大小(lq×lv×dk),因此,获得一个新的张量M,其中包含分段交互信息;
第五步,在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为dk的维度进行压缩,分别得到逐元素权重矩阵
Figure GDA00033966148900000310
和逐段权重矩阵
Figure GDA00033966148900000311
第六步,忽略多头步骤和比例因子,多重交互注意力机制的最终输出由下式给出:
Figure GDA0003396614890000041
其中
Figure GDA0003396614890000042
W是可选的外部权重矩阵。
进一步的,所述步骤S4具体为:
根据视频中对象的位置特征,计算两两对象之间的相对关系向量;定义视频中第m个对象和第n个对象之间的相对关系向量(Xmn,Ymn,Wmn,Hmn,Tmn)T计算公式如下:
Figure GDA0003396614890000043
Figure GDA0003396614890000044
Figure GDA0003396614890000045
为使相对关系向量具有平移不变性和尺度变换不变性,分别计算相对关系向量中每个元素的位置编码,得到
Figure GDA0003396614890000046
五个高维向量,再将这五个高维向量拼接成单个特征向量,得到视频中第m个对象和第n个对象之间的特征向量
Figure GDA0003396614890000047
计算视频中第m个对象和第n个对象的时空关系权重
Figure GDA0003396614890000048
Figure GDA0003396614890000049
其中Wr是一个学习得到的参数向量;根据视频中所有对象之间的时空关系权重
Figure GDA00033966148900000410
两两对应,得到时空关系矩阵
Figure GDA00033966148900000411
其中
Figure GDA00033966148900000412
为时空关系矩阵WR中第m行第n列的元素。
进一步的,所述步骤S5具体为:
将步骤S1得到的帧级别视频特征与位置编码相加,位置编码计算方法同S3,得到帧级别视频表达V,将V同时作为帧通道中N层堆栈中第一个交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习视频的帧级别表示;第一个交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后,作为第二个交互单元的Q输入进入第二个交互单元,同时问题通道的输出作为第二个交互单元的V输入;第二个交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后对前馈单元的输出进行残差连接和层标准化处理,前馈到第一个交互单元;在帧通道中经过N次前述处理后,输出针对问题的帧级别视频表达。
进一步的,所述步骤S6具体为:
将视频中对象的外观特征与位置编码相加,将对象所属帧的序号ti作为对象的位置,位置编码计算方法同S3,得到视频对象表达O,将O同时作为对象通道中N层堆栈中第一个交互单元的Q和V输入,并将步骤S4得到的时空关系矩阵作为外部权重矩阵,在交互单元中使用多重交互注意力机制,学习视频的对象关系表达;多重交互注意力机制的使用方法同S5,不同之处在于第一个交互单元的多头输出作为第二个交互单元的V输入,问题通道的输出作为第二个交互单元的Q输入;在对象通道中经过N次前述处理后,输出与问题相关的对象关系表达。
进一步的,所述步骤S7具体为:
将针对问题的帧级别视频表达和与问题相关的对象关系表达连接,输入解答模块,在解答模块中有三种解码器用于完成四种不同任务:
对于多项选择问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个答案候选的得分:
Figure GDA0003396614890000051
其中Ws是可训练权重,使用正确答案的分数sp和不正确答案的分数sn之间的折页损失函数max(0,1+sn-sp)来优化模型,该解码器可用于解决重复动作和状态转换任务;
对于开放式的数字类问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出整数值答案:
Figure GDA0003396614890000052
其中Wn是权重参数,b是偏置,Round(·)是舍入函数,并且在正确答案和预测值之间采用L2损失函数来训练模型,该解码器用于解决重复计数任务;
至于开放式的词语类问题,线性层将视频编码器的输出维度转换为答案词汇维度,然后使用softmax函数在词汇表上生成答案分布:
Figure GDA0003396614890000053
其中Ww是权重参数,b是偏置,模型使用交叉熵损失函数进行训练,这种类型的解码器用于解决帧问答任务。
本发明具备的有益效果:
以往的视频问答模型大多依赖RNN以获取视频的时间结构,然而受限于RNN的固有结构,对于视频这种变长序列,RNN只能获取定长信息,而且无法有效过滤视频中大量存在的冗余帧;另外RNN还面临梯度消失的问题,无法获得长距离信息,虽然LSTM和GRU在这方面有所改进,但并未完全解决问题。
(1)本发明使用位置编码和新型注意力机制——多交互注意力机制对视频的时间结构进行建模,可以获得更贴近问题的视频表达,减小无关信息的影响,从而更好地获取长距离信息、多帧信息,比如视频中出现的动作以及对象状态的变换等;
(2)本发明将对象关系加入模型的计算中,获取了更细粒度的时间空间信息,比如视频中对象之间的潜在关系和对象的移动等,提升模型回答对象关系相关问题的准确度。
附图说明
图1是本发明所使用的对于视频问答问题的多重交互注意力网络的整体示意图;其中,(a)为多重交互注意力网络的整体结构,(b)为普通的多头注意力机制,(c)为本发明使用的新型注意力机制--多重交互注意力机制。
具体实施方式
下面结合附图对本发明做进一步阐述和说明。
编码器。如图1(a)所示,模型的编码器由三个通道组成:帧通道,问题通道和对象通道。帧通道采用残差神经网络得到的帧级别视频特征作为输入序列。问题频道采用问题的词嵌入作为输入序列。对象通道采用对象的外观特征作为输入序列。对于每个通道,我们再次使用位置编码技术将顺序信息添加到序列中。编码器主要由两种类型的编码层组成。对于每一层,还有两种子单元:交互单元和前馈单元。
问题通道的交互单元使用多重交互机制,来更好地学习输入问题的表示。在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换。然后,前馈单元通过ReLU激活函数将输入序列转换为两个线性投影。
对于帧通道和对象通道中的编码层,它在交互单元和前馈单元之间增加了一个额外的交互单元,该交互单元以问题通道的输出作为输入序列。每个子单元周围都应用了残差连接和层标准化,并且帧通道和对象通道都有N个编码层堆栈。编码器的最终输出是帧通道输出和对象通道输出的连接。
解答模块。在解答模块总共有三个解码器设计用于完成四种不同任务:
对于多项选择问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个答案候选的得分:
Figure GDA0003396614890000071
其中Ws是可训练权重,使用正确答案的分数sp和不正确答案的分数sn之间的折页损失函数max(0,1+sn-sp),来优化模型。该解码器可用于解决重复动作和状态转换任务。
对于开放式的数字类问题,它类似于多项选择。使用线性回归函数,将视频编码器的输出Fvo作为其输入,但是,这次输出整数值答案:
Figure GDA0003396614890000072
Figure GDA0003396614890000073
其中其中Wn是权重参数,b是偏置,Round()是舍入函数。并且在正确答案和预测值之间采用L2损失函数来训练模型。该解码器用于解决重复计数任务。
至于开放式的词语类问题,它可以被视为分类问题。线性层将视频编码器的输出维度转换为答案词汇维度,然后使用softmax函数在词汇表上生成答案分布。可以表示为:
Figure GDA0003396614890000074
其中,Ww是权重参数,b是偏置。模型使用交叉熵损失函数进行训练。这种类型的解码器专为帧问答任务而设计。
多重交互注意力机制。在介绍多重交互注意力机制前先对其原型多头注意力机制进行简要介绍。如图1(b)所示,多头注意力机制有两个输入序列,为方便起见,假设多头线性层的头数是1。在线性投影之后,我们得到两个输入矩阵Q=(q1,q2,...,qi)和V=(v1,v2,...,vj),其中
Figure GDA0003396614890000075
Figure GDA0003396614890000076
然后,我们创建张量
Figure GDA0003396614890000077
来表示两个输入矩阵的每列之间的相互作用。在图1(b)中,相互作用的列用斑点标记。张量K的每列
Figure GDA0003396614890000078
计算方式如下:
Figure GDA0003396614890000079
其中
Figure GDA00033966148900000710
表示逐元素乘法,qi,
Figure GDA00033966148900000711
通过将张量K的dk维压缩,我们可以得到权重矩阵
Figure GDA00033966148900000712
这里使用与缩放点积注意力机制类似的求和方法对张量进行压缩。还可以增加一个可选的外部权重矩阵,以便与一些附加信息结合使用。在我们的模型中,它是时空关系矩阵WR。忽略多头步骤和比例因子,最终输出由下式给出:
O=softmax(WE⊙WR)V
其中⊙表示逐元素乘法,
Figure GDA00033966148900000713
如图1(c)所示。基于上述结构,我们添加了另一个获取分段交互的过程,其中包括两个步骤。
第一步中,在张量K上使用卷积层,内核大小为sq×sv。在卷积运算期间,张量K将被分成不同的子张量
Figure GDA0003396614890000081
在图中用黑色标记。根据前面的描述,K中的每列表示问题和视频序列之间的一个元素级别的交互特征。因此,每个K′可以被视为问题序列片段和视频序列片段之间的元素交互特征集。通过对K′的卷积运算(输入和输出通道都是dk),获得这种分段交互的单个矢量表示。随着内核窗口的移动,得到不同的分段交互表示,形成张量P。第二步中,利用去卷积层将张量P恢复到原始大小(lq×lv×dk)。因此,获得一个新的张量M,其中包含分段交互信息。·
通过在张量K和M上使用上述相同的压缩操作,我们得到逐元素权重矩阵
Figure GDA0003396614890000082
和逐段权重矩阵
Figure GDA0003396614890000083
忽略多头步骤和比例因子,多交互的最终输出由下式给出:
O=softmax((WE+WS)⊙WR)V
其中⊙表示逐元素乘法,
Figure GDA0003396614890000084
利用多重交互注意力机制解决视频中对象关系问答任务的方法,具体步骤如下:
步骤一、针对于一段视频,利用残差神经网络,获得帧级别视频特征。利用Mask-RCNN,获得视频中对象的位置特征和外观特征。所有对象的外观特征
Figure GDA0003396614890000085
位置特征
Figure GDA0003396614890000086
N是视频中检测到的对象数量。具体来说,fA中的每个外观特征都是从训练好的模型中获得的典型高维向量,fL中的每个位置特征都是一个五维坐标,表示为(xn,yn,wn,hn,tn),前四个维度(xn,yn,wn,hn)是对象边界框中心点坐标以及宽高,最后一个维度是对象所属帧的序号。
步骤二、使用多重交互注意力机制,学习得到输入问题的表达。具体实现方式见多重交互注意力机制的介绍。
步骤三、之前得到的视频中对象位置特征的基础上,计算出时空关系矩阵。给定两个对象m和n的位置特征向量
Figure GDA0003396614890000087
Figure GDA0003396614890000088
定义他们之间的相对关系向量(Xmn,Ymn,Wmn,Hmn,Tmn)如下:
Figure GDA0003396614890000089
Figure GDA0003396614890000091
Figure GDA0003396614890000092
为使相对关系向量具有平移不变性和尺度变换不变性,利用位置编码,将这个五维向量使用不同频率的正弦余弦函数嵌入到高维表示中,得到五个高维向量,再将这五个高维向量组合成单个特征向量
Figure GDA0003396614890000093
之后m和n的时空关系权重就可以用下式计算:
Figure GDA0003396614890000094
这里的Wr是一个参数向量。计算好所有对象之间的关系权重后,我们就能得到时空关系矩阵WR
步骤四、在帧级别视频表达和问题表达基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达。详见编码器的介绍。
步骤五、在时空关系矩阵、视频对象表达和问题表达的基础上,使用多重交互注意力机制,学习得到与问题相关的对象关系表达。详见编码器的介绍。
步骤六、在之前得到的帧级别视频表达和对象关系表达基础上,获取针对于视频所问问题的答案。详见解答模块的介绍。
实施例
本发明主要在TGIF-QA数据集上进行应用。TGIF-QA数据集有两个版本,我们使用的是最新版本。TGIF-QA数据集包括三种具体任务:(1)计算给定动作的重复次数(Count);(2)检测给定重复次数的动作(Action);(3)识别状态转换(Trans),例如,在某个动作状态之前或之后发生的事情。解决这些任务需要从视频内容出发进行全面的时间空间推理。除了这些任务外,还有标准的图像问答类型任务,称为帧问答(Frame)。对于帧问答任务,模型仍然需要在视频中的所有帧中找到最相关的帧内容以得到正确的答案。我们还在MSVD-QA数据集和MSRVTT-QA数据集上评估了我们的模型,这两个数据集中的问题有5种(what,who,how,when,where),这些问题没有涉及太多视频动态特征的内容。
本发明在数据集上实现细节如下:
1)对于TGIF-QA数据集中的视频,先从原视频中取样(30~60帧),然后利用ResNet-152提取帧级别的视频特征。对于MSVD-QA数据集和MSRVTT-QA数据集,保持视频长度与原论文一致(20帧),然后利用VGG网络提取帧级别的视频特征。
2)用预训练的Mask R-CNN模型中提取视频中所有对象的位置特征和外观特征,并将每帧的前三个对象作为该帧的主要对象。
3)将初始学习率设置为0.002,并采用预热机制,将学习率设置为在前几个时期逐渐增加,然后在训练期间逐渐减少。在每个单元之后应用层归一,丢失率为0.1。对于训练时,使用adam优化器来优化模型。
下面简述评估指标。在TGIF-QA数据集上,对于状态转换、重复动作和帧问答三类问题,使用分类准确度(ACC)作为评估度量,该数值越高模型准确度越高;对于重复计数的任务,将实际计数值和预测的整数值之间的均方误差(MSE)用作评估度量,该数值越低模型效果越好。在MSVD-QA数据集和MSRVTT-QA数据集上,使用分类准确度(ACC)作为评估度量,该数值越高模型准确度越高。按照具体实施方式中描述的步骤,将所得的实验结果和其他模型对比,得到表1-3:
表1 TGIF-QA数据集实验结果
Figure GDA0003396614890000101
表2 MSVD-QA数据集实验结果
Figure GDA0003396614890000102
Figure GDA0003396614890000111
表3 MSRVTT-QA数据集实验结果
Figure GDA0003396614890000112
以下给出对比的其他模型出自的文献:
文献1:Yunseok Jang,Yale Song,Youngjae Yu,Youngjin Kim,and GunheeKim.2017.Tgif-qa:Toward spatio-temporal reasoning in visual questionanswering.In IEEE Conference on Computer Vision and Pattern Recognition.2680–8.
文献2:Youngjae Yu,Hyungjin Ko,Jongwook Choi,and Gunhee Kim.2017.End-to-end concept word detection for video captioning,retrieval,and questionanswering.In IEEE Conference on Computer Vision and Pattern Recognition.3261–3269.
文献3:Mengye Ren,Ryan Kiros,and Richard Zemel.2015.Exploring modelsand data for image question answering.In Advances in Neural InformationProcessing Systems.2953–2961.
文献4:Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,TrevorDarrell,and Marcus Rohrbach.2016.Multimodal compact bilinear pooling forvisual question answering and visual grounding.In Conference on EmpiricalMethods in Natural Language Processing.
文献5:Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.Deepresidual learning for image recognition.In IEEE Conference on Computer Visionand Pattern Recognition.770–778.
文献6:Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,andManohar Paluri.2015.Learning spatiotemporal features with 3d convolutionalnetworks.In Proceedings of the IEEE international conference on computervision.4489–4497.
文献7:Jiyang Gao,Runzhou Ge,Kan Chen,and Ram Nevatia.2018.Motion-appearance co-memory networks for video question answering.In IEEE Conferenceon Computer Vision and Pattern Recognition.
文献8:Lianli Gao,Pengpeng Zeng,Jingkuan Song,Yuanfang Li,Wu Liu,TaoMei,and Hengtao Shen.2019.Structured Two-stream Attention Network for VideoQuestion Answering.In AAAI Conference on Artificial Intelligence.
文献9:Dejing Xu,Zhou Zhao,Jun Xiao,Fei Wu,Hanwang Zhang,Xiangnan He,and Yueting Zhuang.2017.Video question answering via gradually refinedattention over appearance and motion.In ACM International Conference onMultimedia.1645–1653.
VIS+LSTM(文献3)是一种以基于图像的方法,它利用LSTM将图像和文本特征结合。利用文献1所述的两种方法:aggregate(aggr)和average(avg),可以将VIS+LSTM应用于视频问答;VQA-MCB(文献4)也是一种基于图像的方法,它利用了多模态双线性池化和空间注意力机制并通过文献1所述的两种方法进行调整以用于视频问答;CT-SAN(文献2)是一个基于视频的模型,它使用概念词检测器来生成有用的语义先验,这答案生成有很大帮助;ST方法(文献1)是Jang等人提出的视频问答方法,它利用空间注意力机制和时间的注意力机制来解决视频问答,在表1中,“SP”表示空间注意力机制,“TP”表示时间注意力机制,“(R+C)”表示使用ResNet-152(文献5)和C3D(文献6),“(R+F)”表示使用ResNet-152(文献5)和FlowCNN(文献7);GR-ATT(文献9)是Xu等人在构建MSVD-QA和MSRVTT-QA数据集的同时提出的视频QA模型;Co-Memory Network(文献7)由Gao等人提出,它采用co-memory机制来获取运动和外观信息的深层交互;我们还将我们的方法与最先进的Structured Two-streamAttention Network(STA)(文献8)进行比较,该方法利用结构化分段组件来推断视频中的长程时间结构并使用双流注意力机制来增强视频和问题之间的交互。
表1显示了本发明和其他方法在TGIF-QA数据集上的性能。如表1所示,最新的STA模型在重复动作,状态转换和帧问答任务方面取得了很大的进步,但是,本发明比STA模型性能更加优越,特别是在状态转换任务上。对于重复计数任务,虽然我们模型的均方误差(MSE)高于Co-Memory Network模型,但它仍然低于STA模型。上述实验结果表明了本发明的有效性。
为了进一步验证我们方法的一般性和有效性,我们还将本发明与MSVD-QA和MSRVTT-QA数据集上的STA模型进行了比较。如表2和表3所示,STA模型比GR-ATT模型表现更好,我们的模型仍然优于STA模型。这些事实证明了我们的模型在不同QA类型和数据集上的一般性和有效性。本发明在应用例所用实验集中已经达到了目前最先进的水平。

Claims (8)

1.利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用残差神经网络,获得帧级别视频特征;
S2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;
S3:使用多重交互注意力机制,得到输入问题表达;
所述多重交互注意力机制具体步骤如下,假设多头线性层的头数是1:
第一步,确定两个输入矩阵Q=(q1,q2,...,qi)和V=(v1,v2,...,vj),其中
Figure FDA0003396614880000011
Figure FDA0003396614880000012
第二步,创建张量
Figure FDA0003396614880000013
来表示两个输入矩阵的每列之间的相互作用,张量K的每列
Figure FDA0003396614880000014
计算方式如下:
Figure FDA0003396614880000015
其中
Figure FDA0003396614880000016
表示逐元素乘法,
Figure FDA0003396614880000017
第三步,在张量K上使用卷积层,内核大小为sq×sv;在卷积运算期间,张量K将被分成不同的子张量
Figure FDA0003396614880000018
随着内核窗口的移动,得到不同的分段交互表示,形成张量P;
第四步,利用去卷积层将张量P恢复到原始大小(lq×lv×dk),因此,获得一个新的张量M,其中包含分段交互信息;
第五步,在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为dk的维度进行压缩,分别得到逐元素权重矩阵
Figure FDA0003396614880000019
和逐段权重矩阵
Figure FDA00033966148800000110
第六步,忽略多头步骤和比例因子,多重交互注意力机制的最终输出由下式给出:
Figure FDA00033966148800000111
其中
Figure FDA00033966148800000112
W是可选的外部权重矩阵;
S4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;
S5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;
S6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;
S7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。
2.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,将该视频输入训练好的残差神经网络,输出帧级别视频特征
Figure FDA0003396614880000021
其中M(f)代表视频的帧数,
Figure FDA0003396614880000022
代表视频第j帧的特征向量。
3.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S2具体为:
针对一段视频,将该视频输入Mask-RCNN,输出视频中对象的位置特征
Figure FDA0003396614880000023
和外观特征
Figure FDA0003396614880000024
其中fi l和fi a分别表示视频中第i个对象的位置特征向量和外观特征向量,N是视频中检测到的对象数量;所述位置特征向量fi l是一个五维坐标,表示为(xi,yi,wi,hi,ti),其中xi和yi分别表示视频中第i个对象边界框中心点的横坐标和纵坐标,wi和hi分别表示视频中第i个对象边界框的宽度和高度,ti表示视频中第i个对象所属帧的序号。
4.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S3具体为:
使用预训练的GloVe模型,得到问题的词嵌入w=(w1,w2,…,wn),其中n是问题的单词数,wj是第j个单词对应的词向量;再将词嵌入中的每一个词向量wj与对应的位置编码PEj相加得到单词级别输入问题表达W=(w1+PE1,w2+PE2,…wn+PEn);所述位置编码计算方法如下:
Figure FDA0003396614880000031
其中PEpos,i是位置编码PEpos的第i个元素;pos是位置编码的位置信息,这里是词向量wj的下标j;dmodel是位置编码的维度,这里与词向量的维度相等;
将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习输入问题的表示;在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影,分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入;在问题通道中经过前述处理后,得到输入问题表达。
5.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S4具体为:
根据视频中对象的位置特征,计算两两对象之间的相对关系向量;定义视频中第m个对象和第n个对象之间的相对关系向量(Xmn,Ymn,Wmn,Hmn,Tmn)T计算公式如下:
Figure FDA0003396614880000032
Figure FDA0003396614880000033
Figure FDA0003396614880000034
为使相对关系向量具有平移不变性和尺度变换不变性,分别计算相对关系向量中每个元素的位置编码,得到
Figure FDA0003396614880000035
五个高维向量,再将这五个高维向量拼接成单个特征向量,得到视频中第m个对象和第n个对象之间的特征向量
Figure FDA0003396614880000036
计算视频中第m个对象和第n个对象的时空关系权重
Figure FDA0003396614880000037
Figure FDA0003396614880000038
其中Wr是一个学习得到的参数向量;根据视频中所有对象之间的时空关系权重
Figure FDA0003396614880000041
两两对应,得到时空关系矩阵
Figure FDA0003396614880000042
其中
Figure FDA0003396614880000043
为时空关系矩阵WR中第m行第n列的元素。
6.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S5具体为:
将步骤S1得到的帧级别视频特征与位置编码相加,位置编码计算方法同S3,得到帧级别视频表达V,将V同时作为帧通道中N层堆栈中第一个交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习视频的帧级别表示;第一个交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后,作为第二个交互单元的Q输入进入第二个交互单元,同时问题通道的输出作为第二个交互单元的V输入;第二个交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后对前馈单元的输出进行残差连接和层标准化处理,前馈到第一个交互单元;在帧通道中经过N次前述处理后,输出针对问题的帧级别视频表达。
7.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S6具体为:
将视频中对象的外观特征与位置编码相加,将对象所属帧的序号ti作为对象的位置,位置编码计算方法同S3,得到视频对象表达O,将O同时作为对象通道中N层堆栈中第一个交互单元的Q和V输入,并将步骤S4得到的时空关系矩阵作为外部权重矩阵,在交互单元中使用多重交互注意力机制,学习视频的对象关系表达;多重交互注意力机制的使用方法同S5,不同之处在于第一个交互单元的多头输出作为第二个交互单元的V输入,问题通道的输出作为第二个交互单元的Q输入;在对象通道中经过N次前述处理后,输出与问题相关的对象关系表达。
8.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S7具体为:
将针对问题的帧级别视频表达和与问题相关的对象关系表达连接,输入解答模块,在解答模块中有三种解码器用于完成四种不同任务:
对于多项选择问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个答案候选的得分:
Figure FDA0003396614880000051
其中Ws是可训练权重,使用正确答案的分数sp和不正确答案的分数sn之间的折页损失函数max(0,1+sn-sp)来优化模型,该解码器可用于解决重复动作和状态转换任务;
对于开放式的数字类问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出整数值答案:
Figure FDA0003396614880000052
其中Wn是权重参数,b是偏置,Round(·)是舍入函数,并且在正确答案和预测值之间采用L2损失函数来训练模型,该解码器用于解决重复计数任务;
至于开放式的词语类问题,线性层将视频编码器的输出维度转换为答案词汇维度,然后使用softmax函数在词汇表上生成答案分布:
Figure FDA0003396614880000053
其中Ww是权重参数,b是偏置,模型使用交叉熵损失函数进行训练,这种类型的解码器用于解决帧问答任务。
CN201910965556.7A 2019-10-11 2019-10-11 利用多重交互注意力机制解决视频中对象关系问答任务的方法 Active CN110727824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910965556.7A CN110727824B (zh) 2019-10-11 2019-10-11 利用多重交互注意力机制解决视频中对象关系问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910965556.7A CN110727824B (zh) 2019-10-11 2019-10-11 利用多重交互注意力机制解决视频中对象关系问答任务的方法

Publications (2)

Publication Number Publication Date
CN110727824A CN110727824A (zh) 2020-01-24
CN110727824B true CN110727824B (zh) 2022-04-01

Family

ID=69219921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965556.7A Active CN110727824B (zh) 2019-10-11 2019-10-11 利用多重交互注意力机制解决视频中对象关系问答任务的方法

Country Status (1)

Country Link
CN (1) CN110727824B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其***
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法
CN111986181B (zh) * 2020-08-24 2021-07-30 中国科学院自动化研究所 基于双注意力机制的血管内支架图像分割方法和***
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113688296B (zh) * 2021-08-10 2022-05-31 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN113837259B (zh) * 2021-09-17 2023-05-30 中山大学附属第六医院 一种模态交互的图注意融合的教育视频问答方法及***
CN113870259B (zh) * 2021-12-02 2022-04-01 天津御锦人工智能医疗科技有限公司 多模态医学数据融合的评估方法、装置、设备及存储介质
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、***及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Video Question Answering via Gradually Refined Attention over Appearance and Motion;Dejing Xu,Zhou Zhao;《MM"17:Proceedings of the 25th ACM international conference on Multimedia》;20171023;全文 *
video question answering via hierachical dual-level attention network learning;Zhou Zhao,Jinghao Lin;《MM"17:Proceedings of the 25th ACM international conference on Multimedia》;20171019;全文 *
Video Question Answering via Knowledge-based Progressive Spatial-Temporal Attention Network;Weike Jin,Zhou Zhao;《ACM Transactions on Multimedia Computing》;20190703;全文 *

Also Published As

Publication number Publication date
CN110727824A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110727824B (zh) 利用多重交互注意力机制解决视频中对象关系问答任务的方法
Guo et al. Network decoupling: From regular to depthwise separable convolutions
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
Tian et al. Designing and training of a dual CNN for image denoising
Pan et al. Compressing recurrent neural networks with tensor ring for action recognition
Hu et al. 3D separable convolutional neural network for dynamic hand gesture recognition
Dhomne et al. Gender recognition through face using deep learning
Chen et al. The sparse manifold transform
Minnehan et al. Cascaded projection: End-to-end network compression and acceleration
CN112257572B (zh) 一种基于自我注意力机制的行为识别方法
Han et al. Depth selection for deep ReLU nets in feature extraction and generalization
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN111259904A (zh) 一种基于深度学习和聚类的语义图像分割方法及***
CN111768354A (zh) 基于多尺度人脸部位特征字典的人脸图像复原***
Gao et al. Temporal-attentive covariance pooling networks for video recognition
Garg et al. Dct-snn: Using dct to distribute spatial information over time for learning low-latency spiking neural networks
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
Liu et al. Instance-sequence reasoning for video question answering
CN109840506B (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法
Uddin et al. A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss
Liao et al. Residual attention unit for action recognition
Sun et al. k-NN attention-based video vision transformer for action recognition
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant