CN112488055A - 一种基于渐进图注意力网络的视频问答方法 - Google Patents

一种基于渐进图注意力网络的视频问答方法 Download PDF

Info

Publication number
CN112488055A
CN112488055A CN202011501849.9A CN202011501849A CN112488055A CN 112488055 A CN112488055 A CN 112488055A CN 202011501849 A CN202011501849 A CN 202011501849A CN 112488055 A CN112488055 A CN 112488055A
Authority
CN
China
Prior art keywords
video
question
feature
video frame
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011501849.9A
Other languages
English (en)
Other versions
CN112488055B (zh
Inventor
杨阳
彭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
Guizhou University
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University, Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical Guizhou University
Priority to CN202011501849.9A priority Critical patent/CN112488055B/zh
Publication of CN112488055A publication Critical patent/CN112488055A/zh
Application granted granted Critical
Publication of CN112488055B publication Critical patent/CN112488055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于渐进图注意力网络的视频问答方法,其中,采样一种新颖的渐进图注意网络,以渐进的方式探究了在目标层次、视频帧层次和视频片段层次的多种视觉交互。在该渐进图注意网络当中,目标层次的图结构主要用于获取相同帧或者不同帧中目标之间的时空关系,视频帧层次的图结构探究了视频帧之间的相互关系,而视频片段层次的图结构构建了其中不同动作之间的时序关系。同时,本发明也使用了注意力机制去关注与问题相关的图顶点和边,并且用一种渐进的方式连接这些不同层次的图特征。用这样的方式,每一个图都能基于视觉相关性关注到它的时空邻接顶点和更细粒度的视觉内容。这样提高了预测问题的答***性。

Description

一种基于渐进图注意力网络的视频问答方法
技术领域
本发明属于是视频问答(Video Question Answering,Video-QA)技术领域,更为具体地讲,涉及一种基于渐进图注意力网络的视频问答方法。
背景技术
现有技术中,视频问答(Video Question Answering,Video-QA)主要目标是去回答与视频内容相关的自然语言问句。因此对视频内容的理解至关重要。经典的视频问答方法主要分为三个步骤:1)利用卷积神经网络(CNN)模型和循环神经网络(RNN)模型分别提取视频特征和问句特征;2)在问句特征的指导下,关注视频特征中与回答问题中相关的部分,从而得到更具表现力的视频表示;3)融合视频特征和问句特征,得到多模态的特征表示,然后通过问答模块来预测问题的答案。
基于这个经典的框架,现有的视频问答方法主要集中在从时间维度和空间维度进行的视觉推理。一些方法利用时空注意力机制(Spatial-Temporal Attention)来重点关注视频中与问句相关的并且具有价值的时空信息。另外一些方法探索了视频中存在的视觉关系特征,从而为答案的推理提供更多有效的语义信息。
现有的方法大多利用注意力机制(Attention)或者图网络结构(GCN),探究了视频当中目标之间或者帧之间的单一交互,然而这些交互往往不足以表示视频中的复杂场景,因为在视频当中,不仅会涉及到目标之间的时空关系和视频帧之间相互关系,还会涉及到其中动作的时序关系,因此对于预测问题的答***率较低。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于渐进图注意力网络的视频问答方法,以提高预测问题的答***性。
为实现上述发明目的,本发明基于渐进图注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、视觉特征提取
对于一个由帧序列组成的视频,将其划分为N个视频片段,每个片段中包含L帧;
首先使用3D CNN网络(三维卷积神经网络)提取每个视频片段的层次特征cn,n=1,2,...,N,视频片段层次特征cn的维度为dc,用C={c1,c2,...,cN}表示N个视频片段的层次特征;
然后使用2D CNN网络(二维卷积神经网络)提取每个视频帧的层次特征fn,l,n=1,2,...,N,l=1,2,...L,视频帧层次特征fn,l的维度为df,用F={f1,1,f1,2,...,fN,L}表示N×L个视频帧的层次特征;
再使用Faster R-CNN(更快速区域卷积神经网络)提取每个视频帧中每个目标的层次特征on,l,k,n=1,2,...,N,l=1,2,...L,k=1,2,...K,K是每个视频帧中提取目标的个数,目标层次特征on,l,k的维度为do,用O={o1,1,1,o1,1,2,...,oN,L,K}表示N×L×K个目标层次特征;
最后使用长短期记忆(LSTM)网络编码问句以获取问句的表示:
问句中的所有单词首先用词嵌入模型编码成一个词向量序列,然后将其输入到一个LSTM网络当中,获取其隐藏输出序列H={h1,h2,...,hS},其中,特征hs,s=1,2,...S的维度为dq,S为问句的长度,最后,使用一个自注意力机制,重点关注问句当中重要的单词来获取问句的表示,用如下公式表示:
Figure BDA0002843712470000021
Figure BDA0002843712470000022
其中,
Figure BDA0002843712470000023
是学习的参数,
Figure BDA0002843712470000026
表示实数矩阵,dh为行数,
Figure BDA0002843712470000024
是第s个单词的在问句当中的权重,vq是问句的表示(问句表示);
(2)、构建渐进图注意网络(包括三个不同层次的图注意网络)
2.1)、构建目标层次图注意网络,用以获取目标之间的时空关系
构建目标层次图Go={Vo,εo,Ao},其中,Vo是图中顶点的集合,一个顶点代表一个被检测的目标,εo是图中边的集合,代表了每一个视频帧中所有目标的关系,
Figure BDA0002843712470000025
为相关的邻接矩阵;
结合使用问句表示和目标层次特征on,l,k(为了简化,目标层次特征on,l,k表示oi,i=1,2,...,NLK)生成合适的邻接矩阵:
首先将问句特征vq和每一个目标层次特征oi进行聚合:
Figure BDA0002843712470000031
其中,φ′(·)、φ″(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量,*表示点乘,NLK=N×L×K;
然后,邻接矩阵Ao中,第i个目标和第j个目标之间的依赖值
Figure BDA0002843712470000032
由如下公式得出:
Figure BDA0002843712470000033
其中,T表示转置;
更新每一个目标层次特征oi为o′i
Figure BDA0002843712470000034
Figure BDA0002843712470000035
再串联每一个更新的目标层次特征o′i,得到张量
Figure BDA0002843712470000036
NL=N×L;
使用注意力机制来关注视频帧中与问句相关的目标,注意力机制的过程用如下的公式表示:
vo=Attention(O′,vq) (7)
其中,
Figure BDA0002843712470000037
是聚合的目标特征,
Figure BDA0002843712470000038
Figure BDA0002843712470000039
2.2)、构建视频帧层次图注意网络,用以获取视频帧之间的相互关系
构建视频帧层次图Gf={Vf,εf,Af},其中,Vf是图中顶点的集合,每一个顶点代表一个视频帧,εf是图中边的集合,代表每一个视频帧的关系,
Figure BDA00028437124700000310
为相关的邻接矩阵;
为了简化,视频帧层次特征fn,l表示fi′,i′=1,2,...,NL,获取NL个融合视频帧层次特征F′={f′1,f′2,...,f′NL}={f′i′|i′=1,2,...,NL},其中,融合视频帧特征f′i′为:
Figure BDA00028437124700000311
其中,
Figure BDA00028437124700000312
代表按位相加,
Figure BDA00028437124700000313
为拥有ReLu激活函数的全连接网络,使特征转换为df维度的向量;
首先将问句特征vq和每一个融合视频帧特征f′i′进行聚合:
Figure BDA00028437124700000314
其中,
Figure BDA00028437124700000315
均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量;
然后,邻接矩阵Af中,第i′个视频帧和第j′个视频帧之间的依赖值
Figure BDA0002843712470000041
由如下公式得出:
Figure BDA0002843712470000042
更新每一个融合视频帧层次特征f′i′为f″i′
Figure BDA0002843712470000043
Figure BDA0002843712470000044
再串联每一个更新的视频帧层次特征f″i′,得到张量
Figure BDA0002843712470000045
在问句特征的指导下,使用了注意力机制,得到聚合的视频帧特征vf
vf=Attention(F″,vq) (13)
其中,聚合的视频帧特征
Figure BDA0002843712470000046
Figure BDA0002843712470000047
2.3)构建视频片段层次图注意网络,用以建立视频片段中动作之间时序和语义关系
构建视频片段层次图Gc={Vc,εc,Ac},其中Vc代表视频片段的集合,εc是图中边的集合,代表每一个视频片段的关系,Ac为相关的邻接矩阵;
融合N个视频片段的层次特征C和聚合的视频帧特征vf来生成融合视频片段层次特征C′={c′1,c′2,...,c′N}={c′n|n=1,2,...,N},其中,融合视频片段层次特征c′n为:
Figure BDA0002843712470000048
其中,ω′(·)为拥有ReLu激活函数的全连接网络,使特征转换为dc维度的向量;
首先将问句特征vq和聚合视频帧特征
Figure BDA0002843712470000049
进行聚合:
Figure BDA00028437124700000410
其中,ω″(·)、ω″′(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量;
然后,邻接矩阵Ac中,第n个视频片段和第k个视频片段之间的依赖值
Figure BDA00028437124700000411
由如下公式得出:
Figure BDA0002843712470000051
更新每一个融合视频片段层次特征c′n为c″n
Figure BDA0002843712470000052
Figure BDA0002843712470000053
再串联每一个更新的融合视频片段层次特征c″n,得到张量
Figure BDA0002843712470000054
在问句特征的指导下,使用了注意力机制,得到聚合的视频特征vc:
vc=Attention(C″,vq) (19)
其中,聚合的视频特征vc的维度为dc
(3)、答案预测
针对开放式任务,首先融合视觉信息和问句信息,然后将这些融合后的信息输入一个softmax分类器中,计算出答案的概率:
g=ρ′(vc)*ρ″(vq) (20)
p=softmax(Wog) (21)
其中,ρ′(·)、ρ″(·)均为拥有ReLu激活函数的全连接网络,Wo是学习参数,p是概率向量,使用交叉熵函数更新全连接网络参数以及softmax分类器的学习参数;
针对多选任务,首先串联融合视觉信息、问句信息和答案表示,然后将融合后的特征送入最终分类器进行线性回归,输出答案索引y:
g′=ρ′(vc)*ρ″(vq)*ρ″′(va) (22)
y=Wmg′ (23)
其中,va为答案表示,Wm是学习参数,使用成对比较合页函数更新更新全连接网络参数以及分类器的学习参数;
针对计数任务,使用线性回归函数,将公式(20)中的g作为输入,然后本使用四舍五入函数计算计数结果,使用均方误差(MSE)损失函数更新线性回归函数参数。
本发明的目的是这样实现的。
本发明基于渐进图注意力网络的视频问答方法,其中,采样一种新颖的渐进图注意网络,以渐进的方式探究了在目标层次、视频帧层次和视频片段层次的多种视觉交互。在该渐进图注意网络当中,目标层次的图结构主要用于获取相同帧或者不同帧中目标之间的时空关系,视频帧层次的图结构探究了视频帧之间的相互关系,而视频片段层次的图结构构建了其中不同动作之间的时序关系。同时,本发明也使用了注意力机制去关注与问题相关的图顶点和边,并且用一种渐进的方式连接这些不同层次的图特征。用这样的方式,每一个图都能基于视觉相关性关注到它的时空邻接顶点和更细粒度的视觉内容。这样提高了预测问题的答***性。
附图说明
图1是本发明基于渐进图注意力网络的视频问答方法一种具体实施方式流程图;
图2是本发明基于渐进图注意力网络的视频问答方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于渐进图注意力网络的视频问答方法一种具体实施方式流程图。
在本实施例中,如图1所示本发明基于渐进图注意力网络的视频问答方法包括以下步骤:
步骤S1:视觉特征提取
在本实施例中,如图2所示,本发明提取了三种不同层次的视觉特征,对于一个由帧序列组成的视频V,将其划分为N个视频片段,每个片段中包含L帧。
首先使用3D CNN网络(三维卷积神经网络)提取每个视频片段的层次特征cn,n=1,2,...,N,视频片段层次特征cn的维度为dc,用C={c1,c2,...,cN}表示N个视频片段的层次特征。在本实施例中,3D CNN网络采用ResNeXt-101网络。
然后使用2D CNN网络(二维卷积神经网络)提取每个视频帧的层次特征fn,l,n=1,2,...,N,l=1,2,...L,视频帧层次特征fn,l的维度为df,用F={f1,1,f1,2,...,fN,L}表示N×L个视频帧的层次特征。在本实施例中,2D CNN网络采用ResNet-152网络。
再使用Faster R-CNN(更快速区域卷积神经网络)提取每个视频帧中每个目标的层次特征on,l,k,n=1,2,...,N,l=1,2,...L,k=1,2,...K,K是每个视频帧中提取目标的个数,目标层次特征on,l,k的维度为do,用O={o1,1,1,o1,1,2,...,oN,L,K}表示N×L×K个目标层次特征.
最后使用长短期记忆(LSTM)网络编码问句Q以获取问句的表示:
问句Q中的所有单词首先用Glove词嵌入模型编码成一个词向量序列,然后将其输入到一个LSTM网络当中,获取其隐藏输出序列H={h1,h2,...,hS},其中,特征hs,s=1,2,...S的维度为dq,S为问句Q的长度,最后,使用一个自注意力机制,重点关注问句当中重要的单词来获取问句Q的表示,用如下公式表示:
Figure BDA0002843712470000071
Figure BDA0002843712470000072
其中,
Figure BDA0002843712470000073
是学习的参数,
Figure BDA0002843712470000076
表示实数矩阵,dh为行数,
Figure BDA0002843712470000074
是第s个单词的在问句当中的权重,vq是问句的表示(问句表示)。
步骤S2:构建渐进图注意网络
在本实施例中,如图2所示,本发明设计了一个渐进图注意网络,用以推理有价值和与问句相关的视觉信息,其中包括三个不同层次的图网络:第一个是目标层次的图注意网络(目标层次图注意网络),用以获取目标之间的时空关系;第二个是视频帧层次的图注意网络(视频帧层次图注意网络),用以探索视频帧之间的相互关系;最后一个是视频片段层次的图注意网络(视频片段层次图注意网络),用以建立视频片段中动作之间时序和语义关系。
步骤S2.1:构建目标层次图注意网络,用以获取目标之间的时空关系
构建目标层次图Go={Vo,εo,Ao},其中,Vo是图中顶点的集合,一个顶点代表一个被检测的目标,εo是图中边的集合,代表了每一个视频帧中所有目标的关系,
Figure BDA0002843712470000075
为相关的邻接矩阵;
本发明建立目标层次的图结构的主要目的是在问句特征的指导下建立视频中任意两个目标之间的关系。因此,需要结合使用问句特征和视觉特征从而生成合适的邻接矩阵。
结合使用问句表示和目标层次特征on,l,k(为了简化,目标层次特征on,l,k表示oi,i=1,2,...,NLK)生成合适的邻接矩阵Ao
首先将问句特征vq和每一个目标层次特征oi进行聚合:
Figure BDA0002843712470000081
其中,φ′(·)、φ″(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量,*表示点乘,NLK=N×L×K。
然后,邻接矩阵Ao中,第i个目标和第j个目标之间的依赖值
Figure BDA0002843712470000082
由如下公式得出:
Figure BDA0002843712470000083
其中,T表示转置。
本发明根据计算出的邻接矩阵Ao利用其他的相关的目标来更新每一个目标特征oi,进而保留目标之间的局部和长期依赖。具体更新每一个目标层次特征oi为o′i
Figure BDA0002843712470000084
Figure BDA0002843712470000085
其中,“+oi”的目的是进行残差连接。
再串联每一个更新的目标层次特征o′i,得到张量
Figure BDA0002843712470000086
NL=N×L;
使用注意力机制来关注视频帧中与问句相关的目标,注意力机制的过程用如下的公式表示:
vo=Attention(O′,vq) (7)
其中,
Figure BDA0002843712470000087
是聚合的目标层次特征,
Figure BDA0002843712470000088
Figure BDA0002843712470000089
Figure BDA00028437124700000810
的维度为do
步骤S2.2:构建视频帧层次图注意网络,用以获取视频帧之间的相互关系
当视频中动作正在发生或者正在过渡的时候,不同视频帧之间的关系能够记录详细的表观信息的变化。本发明建立视频帧层次的图结构来获取详尽的表观变化。
构建视频帧层次图Gf={Vf,εf,Af},其中,Vf是图中顶点的集合,每一个顶点代表一个视频帧,εf是图中边的集合,代表每一个视频帧的关系,
Figure BDA0002843712470000091
为相关的邻接矩阵。
为了简化,视频帧层次特征fn,l表示fi′,i′=1,2,...,NL,
本发明融合了两种特征获取NL个融合视频帧层次特征F′={f′1,f′2,...,f′NL}={f′i′|i′=1,2,...,NL},其中,融合视频帧特征f′i′为:
Figure BDA0002843712470000092
其中,
Figure BDA0002843712470000093
代表按位相加,
Figure BDA0002843712470000094
为拥有ReLu激活函数的全连接网络,使特征转换为df维度的向量。
首先将问句特征vq和每一个融合视频帧特征f′i′进行聚合:
Figure BDA0002843712470000095
其中,
Figure BDA0002843712470000096
均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量。
然后,邻接矩阵Af中,第i′个视频帧和第j′个视频帧之间的依赖值
Figure BDA0002843712470000097
由如下公式得出:
Figure BDA0002843712470000098
更新每一个融合视频帧层次特征f′i′为f″i′
Figure BDA0002843712470000099
Figure BDA00028437124700000910
再串联每一个更新的视频帧层次特征f″i′,得到张量
Figure BDA00028437124700000911
在问句特征的指导下,使用了注意力机制,得到聚合的视频帧特征vf
vf=Attention(F″,vq) (13)
其中,聚合的视频帧特征
Figure BDA00028437124700000912
Figure BDA00028437124700000913
步骤S2.3:构建视频片段层次图注意网络,用以建立视频片段中动作之间时序和语义关系
本发明将视频分割成多个短的视频片段,并且构建了一个视频片段层次的图结构(视频片段层次图)来表示不同视频片段中动作之间时序和语义关系。
构建视频片段层次图Gc={Vc,εc,Ac},其中Vc代表视频片段的集合,εc是图中边的集合,代表每一个视频片段的关系,Ac为相关的邻接矩阵;
融合N个视频片段的层次特征C和聚合的视频帧特征vf来生成融合视频片段层次特征C′={c′1,c′2,...,c′N}={c′n|n=1,2,...,N},其中,融合视频片段层次特征c′n为:
Figure BDA0002843712470000101
其中,ω′(·)为拥有ReLu激活函数的全连接网络,使特征转换为dc维度的向量;
首先将问句特征vq和聚合视频帧特征
Figure BDA0002843712470000102
进行聚合:
Figure BDA0002843712470000103
其中,ω″(·)、ω″′(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量。
然后,邻接矩阵Ac中,第n个视频片段和第k个视频片段之间的依赖值
Figure BDA0002843712470000104
由如下公式得出:
Figure BDA0002843712470000105
更新每一个融合视频片段层次特征c′n为c″n
Figure BDA0002843712470000106
Figure BDA0002843712470000107
再串联每一个更新的融合视频片段层次特征c″n,得到张量
Figure BDA0002843712470000108
在问句特征的指导下,使用了注意力机制,得到聚合的视频特征vc:
vc=Attention(C″,vq) (19)
其中,聚合的视频特征vc的维度为dc
用这样的方式,合的视频特征vc中就能包含目标的信息、视频帧的全局信息和动态信息,提高了预测问题的答***性。
步骤S3:答案预测
针对开放式任务,首先融合视觉信息和问句信息,然后将这些融合后的信息输入一个softmax分类器中,计算出答案的概率:
g=ρ′(vc)*ρ″(vq) (20)
p=softmax(Wog) (21)
其中,ρ′(·)、ρ″(·)均为拥有ReLu激活函数的全连接网络,Wo是学习参数,ρ是概率向量,使用交叉熵函数更新全连接网络参数以及softmax分类器的学习参数。
针对多选任务,首先串联融合视觉信息、问句信息和答案表示,然后将融合后的特征送入最终分类器进行线性回归,输出答案索引y:
g′=ρ′(vc)*ρ″(vq)*ρ″′(va) (22)
y=Wmg′ (23)
其中,va为答案表示,Wm是学习参数,使用成对比较合页函数更新更新全连接网络参数以及分类器的学习参数。
针对计数任务,使用线性回归函数,将公式(20)中的g作为输入,然后本使用四舍五入函数计算计数结果,使用均方误差(MSE)损失函数更新线性回归函数参数。
实例
经过实验发现,现有的大型视频问答数据集TGIF-QA中的两个多选(Multi-Choice)子数据集存在很严重的答案偏置。这些偏置会对模型的准确率造成很大的影响。为了解决这个问题,本实例在TGIF-QA的基础上,建立了一个新的数据集TGIF-QA-R。在该数据集中,候选答案是相互独立的,用这样的方式能够有效地降低由答案偏置带来的影响。
在三个大型的基准数据集TGIF-QA,MSVD-QA和MSRVTT-QA以及新构建的TGIF-QA-R数据集上测试该方法的效果,从实验的效果可以可知,本发明提出的方法优于最高水平的方法。
1、TGIF-QA和TGIF-QA-R数据集上的测试结果
Figure BDA0002843712470000111
Figure BDA0002843712470000121
表1
从表1中可以得出,本发明在绝大多数子任务中取得了最好的表现,在TGIF-QA-R的Action和Trans.子任务中分别取得了57.6%和65.6%的准确率,在TGIF-QA的Action,Trans.和Frame子任务中取得了79.5%,85.3%和62.8%的准确率。
2、MSVD-QA数据集上的测试结果
Figure BDA0002843712470000122
表2
从表2中可以得出,本发明在整体的准确率上取得了最高水平的表现,将准确率从36.5%提升到39.8%。
3、MSRVTT-QA数据集上的测试结果:
Figure BDA0002843712470000123
Figure BDA0002843712470000131
从表3中可以得出,本发明在整体的准确率上取得了最高水平的表现,将准确率从35.5%提升到38.2%。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于渐进图注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、视觉特征提取
对于一个由帧序列组成的视频,将其划分为N个视频片段,每个片段中包含L帧;
首先使用3D CNN网络(三维卷积神经网络)提取每个视频片段的层次特征cn,n=1,2,...,N,视频片段层次特征cn的维度为dc,用C={c1,c2,...,cN}表示N个视频片段的层次特征;
然后使用2D CNN网络(二维卷积神经网络)提取每个视频帧的层次特征fn,l,n=1,2,...,N,l=1,2,...L,视频帧层次特征fn,l的维度为df,用F={f1,1,f1,2,…,fN,L}表示N×L个视频帧的层次特征;
再使用Faster R-CNN(更快速区域卷积神经网络)提取每个视频帧中每个目标的层次特征on,l,k,n=1,2,...,N,l=1,2,...L,k=1,2,...K,K是每个视频帧中提取目标的个数,目标层次特征on,l,k的维度为do,用O={o1,1,1,o1,1,2,...,oN,L,K}表示N×L×K个目标层次特征;
最后使用长短期记忆(LSTM)网络编码问句以获取问句的表示:
问句中的所有单词首先用词嵌入模型编码成一个词向量序列,然后将其输入到一个LSTM网络当中,获取其隐藏输出序列H={h1,h2,...,hS},其中,特征hs,s=1,2,...S的维度为dq,S为问句的长度,最后,使用一个自注意力机制,重点关注问句当中重要的单词来获取问句的表示,用如下公式表示:
Figure FDA0002843712460000011
Figure FDA0002843712460000012
其中,
Figure FDA0002843712460000013
是学习的参数,
Figure FDA0002843712460000014
表示实数矩阵,dh为行数,
Figure FDA0002843712460000015
是第s个单词的在问句当中的权重,vq是问句的表示(问句表示);
(2)、构建渐进图注意网络(包括三个不同层次的图注意网络)
2.1)、构建目标层次图注意网络,用以获取目标之间的时空关系
构建目标层次图Go={Vo,εo,Ao},其中,Vo是图中顶点的集合,一个顶点代表一个被检测的目标,εo是图中边的集合,代表了每一个视频帧中所有目标的关系,
Figure FDA0002843712460000021
为相关的邻接矩阵;
结合使用问句表示和目标层次特征on,l,k(为了简化,目标层次特征on,l,k表示oi,i=1,2,...,NLK)生成合适的邻接矩阵:
首先将问句特征vq和每一个目标层次特征oi进行聚合:
Figure FDA0002843712460000022
其中,φ′(·)、φ″(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量,*表示点乘,NLK=N×L×K;
然后,邻接矩阵Ao中,第i个目标和第j个目标之间的依赖值
Figure FDA0002843712460000023
由如下公式得出:
Figure FDA0002843712460000024
其中,T表示转置;
更新每一个目标层次特征oi为o′i
Figure FDA0002843712460000025
Figure FDA0002843712460000026
再串联每一个更新的目标层次特征o′i,得到张量
Figure FDA0002843712460000027
NL=N×L;
使用注意力机制来关注视频帧中与问句相关的目标,注意力机制的过程用如下的公式表示:
vo=Attention(O′,vq) (7)
其中,
Figure FDA0002843712460000028
是聚合的目标特征,
Figure FDA0002843712460000029
Figure FDA00028437124600000210
2.2)、构建视频帧层次图注意网络,用以获取视频帧之间的相互关系
构建视频帧层次图Gf={Vf,εf,Af},其中,Vf是图中顶点的集合,每一个顶点代表一个视频帧,εf是图中边的集合,代表每一个视频帧的关系,
Figure FDA00028437124600000211
为相关的邻接矩阵;
为了简化,视频帧层次特征fn,l表示fi′,i′=1,2,...,NL,获取NL个融合视频帧层次特征F′={f1′,f2′,...,f′NL}={fi′|i′=1,2,...,NL},其中,融合视频帧特征f′i′为:
Figure FDA00028437124600000212
其中,
Figure FDA00028437124600000213
代表按位相加,
Figure FDA00028437124600000214
为拥有ReLu激活函数的全连接网络,使特征转换为df维度的向量;
首先将问句特征vq和每一个融合视频帧特征f′i′进行聚合:
Figure FDA0002843712460000031
其中,
Figure FDA0002843712460000032
均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量;
然后,邻接矩阵Af中,第i′个视频帧和第j′个视频帧之间的依赖值
Figure FDA0002843712460000033
由如下公式得出:
Figure FDA0002843712460000034
更新每一个融合视频帧层次特征f′i′为f″i′
Figure FDA0002843712460000035
Figure FDA0002843712460000036
再串联每一个更新的视频帧层次特征f″i′,得到张量
Figure FDA0002843712460000037
在问句特征的指导下,使用了注意力机制,得到聚合的视频帧特征vf
vf=Attention(F″,vq) (13)
其中,聚合的视频帧特征
Figure FDA0002843712460000038
Figure FDA0002843712460000039
2.3)构建视频片段层次图注意网络,用以建立视频片段中动作之间时序和语义关系
构建视频片段层次图Gc={Vc,εc,Ac},其中Vc代表视频片段的集合,εc是图中边的集合,代表每一个视频片段的关系,Ac为相关的邻接矩阵;
融合N个视频片段的层次特征C和聚合的视频帧特征vf来生成融合视频片段层次特征C′={c′1,c′2,...,c′N}={c′n|n=1,2,...,N},其中,融合视频片段层次特征c′n为:
Figure FDA00028437124600000310
其中,ω′(·)为拥有ReLu激活函数的全连接网络,使特征转换为dc维度的向量;
首先将问句特征vq和聚合视频帧特征
Figure FDA00028437124600000311
进行聚合:
Figure FDA00028437124600000312
其中,ω″(·)、ω″′(·)均为拥有ReLu激活函数的全连接网络,使特征转换为dh维度的向量;
然后,邻接矩阵Ac中,第n个视频片段和第k个视频片段之间的依赖值
Figure FDA0002843712460000041
由如下公式得出:
Figure FDA0002843712460000042
更新每一个融合视频片段层次特征c′n为c″n
Figure FDA0002843712460000043
Figure FDA0002843712460000044
再串联每一个更新的融合视频片段层次特征c″n,得到张量
Figure FDA0002843712460000045
在问句特征的指导下,使用了注意力机制,得到聚合的视频特征vc
vc=Attention(C″,vq) (19)
其中,聚合的视频特征vc的维度为dc
(3)、答案预测
针对开放式任务,首先融合视觉信息和问句信息,然后将这些融合后的信息输入一个softmax分类器中,计算出答案的概率:
g=ρ′(vc)*ρ″(vq) (20)
ρ=softmax(Wog) (21)
其中,ρ′(·)、ρ″(·)均为拥有ReLu激活函数的全连接网络,Wo是学习参数,p是概率向量,使用交叉熵函数更新全连接网络参数以及softmax分类器的学习参数;
针对多选任务,首先串联融合视觉信息、问句信息和答案表示,然后将融合后的特征送入最终分类器进行线性回归,输出答案索引y:
g′=ρ′(vc)*ρ″(vq)*ρ″′(va) (22)
y=Wmg′ (23)
其中,va为答案表示,Wm是学习参数,使用成对比较合页函数更新更新全连接网络参数以及分类器的学习参数;
针对计数任务,使用线性回归函数,将公式(20)中的g作为输入,然后本使用四舍五入函数计算计数结果,使用均方误差(MSE)损失函数更新线性回归函数参数。
CN202011501849.9A 2020-12-18 2020-12-18 一种基于渐进图注意力网络的视频问答方法 Active CN112488055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011501849.9A CN112488055B (zh) 2020-12-18 2020-12-18 一种基于渐进图注意力网络的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011501849.9A CN112488055B (zh) 2020-12-18 2020-12-18 一种基于渐进图注意力网络的视频问答方法

Publications (2)

Publication Number Publication Date
CN112488055A true CN112488055A (zh) 2021-03-12
CN112488055B CN112488055B (zh) 2022-09-06

Family

ID=74914783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011501849.9A Active CN112488055B (zh) 2020-12-18 2020-12-18 一种基于渐进图注意力网络的视频问答方法

Country Status (1)

Country Link
CN (1) CN112488055B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答***、方法、计算机及存储介质
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIKYAS T.DESTA, LARRY CHEN, TOMASZ KORNUTA: "Object-Based Reasoning in VAQ", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
闫茹玉等: "结合自底向上注意力机制和记忆网络的视觉问答模型", 《中国图象图形学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答***、方法、计算机及存储介质
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Also Published As

Publication number Publication date
CN112488055B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN112488055B (zh) 一种基于渐进图注意力网络的视频问答方法
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价***
CN111488807B (zh) 基于图卷积网络的视频描述生成***
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
Ulhaq et al. Efficient diffusion models for vision: A survey
CN108765383B (zh) 基于深度迁移学习的视频描述方法
WO2019056628A1 (zh) 关注点文案的生成
Zhang et al. Recurrent attention network using spatial-temporal relations for action recognition
CN110046353B (zh) 一种基于多语言层次机制的方面级情感分析方法
CN114339450B (zh) 视频评论生成方法、***、设备及存储介质
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及***
Shen et al. Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description.
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN112801762A (zh) 基于商品感知的多模态视频高光检测方法及其***
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Liu et al. The use of deep learning technology in dance movement generation
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Zhu et al. PBGN: Phased bidirectional generation network in text-to-image synthesis
CN113783715A (zh) 一种采用因果卷积神经网络的机会网络拓扑预测方法
Alrashidi et al. Hybrid CNN-based Recommendation System
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
KR20190134308A (ko) 합성곱 신경망을 활용한 데이터 확장방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant