CN107818174A - 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 - Google Patents

一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 Download PDF

Info

Publication number
CN107818174A
CN107818174A CN201711131317.9A CN201711131317A CN107818174A CN 107818174 A CN107818174 A CN 107818174A CN 201711131317 A CN201711131317 A CN 201711131317A CN 107818174 A CN107818174 A CN 107818174A
Authority
CN
China
Prior art keywords
video
msub
mrow
msubsup
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711131317.9A
Other languages
English (en)
Inventor
庄越挺
赵洲
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201711131317.9A priority Critical patent/CN107818174A/zh
Publication of CN107818174A publication Critical patent/CN107818174A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练视频外表及动作上的渐进式优化注意力网络,学习出视频和问题的联合表达。2)对于得到的视频问题的联合表达,产生相应视频问题的答案,再与真实的相关答案一起训练出完整的网络,用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案,本发明利用了视频的外表信息与动作信息,并且结合问题的单词逐渐优化其注意力值,则能够更准确地反映视频和问题的特性,并产生更加符合要求的答案。本发明在视频问答问题中所取得的效果相比于传统的方法更好。

Description

一种利用视频外表及动作上的渐进式优化注意力网络机制解 决视频问答的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要是针对于静态图像生成相关问题的答案,虽然目前的技术针对于静态图像问答,可以取得很好的表现结果。但是由于视频中信息的复杂性与多样性的特点,简单地把针对于图片的问答技术拓展到视频问答任务中不是十分恰当的。
本发明将使用一种原创的注意力机制来挖掘视频中的外表及动作信息。更为准确地说,本发明提出了一种端对端的模型,该模型可以在问题作为指导的前提下,逐渐利用视频中的外表及动作特征来改善其注意力网络。问题被逐词进行处理直到模型生成了最终的优化注意力模型。最终,视频的权重表达及其他的上下文信息被用来生成最后的答案。
本方法将先利用VGG网络与C3D网络分别提取视频的外表及动作信息。之后逐词分析问题,并且逐渐优化这些特征上的注意力值。在问题的最后一个单词被处理过之后,模型针对于视频形成了最终的优化注意力模型,该模型的注意力值设定对于回答该特定问题是最相关的。之后该模型利用该注意力机制混合外表及动作特征并且提取出视频的最终表达。之后利用该视频的最终表达结合如问题信息及注意力机制历史信息形成最终的答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频信息的复杂性与多样性的问题,且针对于视频中经常包含对象物品的外表及其移动信息,本发明提供一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是:
利用视频外表及动作上的渐进式优化注意力网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,通过VGG网络提取视频帧级别的外表特征,通过C3D网络提取视频片段级别的动作特征,通过词嵌入的方法逐词处理问题,将问题的单词转化为对应的语义映射。
2、将问题的单词的语义映射输入到LSTM网络中,之后将LSTM网络的输出及问题单词的语义映射输入到注意力记忆单元(AMU)中来形成并调整视频外表及动作特征上的注意力值,并最终生成视频优化后的表达。
3、利用学习得到的视频表达,获取针对于视频所问问题的答案。
上述步骤可具体采用如下实现方式:
1、对于所给视频,使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数,上标a代表提取的为视频的外表表达,使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数,且与取样的帧数相同,上标m代表提取的为视频的动作表达,对于所给问题Q,可以看作是一个单词序列Q=[q1,q2,...,qT],使用单词映射的方法利用嵌入层将单词qt映射到其语义表达xt
2、将问题单词所得到的单词映射xt输入到LSTMq这个网络中,认为LSTMq这个网络的隐藏层中记录了已经处理的问题部分的历史信息。之后将单词映射xt与LSTMq网络的隐藏层状态值输入到AMU网络中来优化视频外表及动作上的注意力网络。
3、对于AMU网络,其使用当前单词的映射值,LSTMq网络的隐藏层中存储的问题信息及视频的外表及动作特征作为输入,之后执行一定的步骤来优化视频特征的注意力网络。在AMU 网络中主要有4个操作模块,分别为注意力模块ATT,频道混合模块CF,记忆模块LSTMa,优化模块REF。这四个模块与一些转化操作一起,构成了本发明提出的模型的逐渐优化注意力网络机制。下面对于本发明中AMU网络的注意力优化机制进行概述。
首先ATT1模块以当前问题单词的单词映射xt为基础,对于视频的帧级别的外表特征Fa与视频的片段级别的动作特征Fm构成的视频的特征F初始化其注意力值输出包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征在内的结合了问题单词信息的视频特征pt。之后,在CF模块中将视频的外表特征与视频的动作特征混合,生成视频的综合表达ut。随后,将LSTMq网络的隐藏层状态值之前形成的视频表达vt-1,视频的综合表达ut相加,形成记忆模块LSTMa的输入,使LSTMa中存储了所有执行过的注意力操作。之后将LSTMa的隐藏层状态值与视频的特征F输入到ATT2模块中,产生视频的特征F上的注意力值最后REF模块中利用ATT1模块产生的注意力值与ATT2模块产生的注意力值结合LSTMq网络的隐藏层状态值与视频的帧级别的外表特征Fa与视频的片段级别的动作特征Fm构成的视频的特征F,形成视频在时刻t的表达vt
下面对于AMU网络中各模块的工作原理进行详述。
4、对于注意力模块ATT,输入问题单词的单词映射表达xt,视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出:
ei=tanh(Wffi+bf)Ttanh(Wxxt+bx)
其中,Wf与Wx为权重矩阵,用来将单词映射及视频特征转化到相同大小的潜在映射空间中;fi代指视频帧级别的外表特征或是视频片段级别的动作特征值,bf与bx为偏置向量。 ai为最终求出的权重值,反映了当前单词与第i帧之间的相关程度。且将ATT1与ATT2所得到的所有ai构成及集合分别记为之后可以按如下公式求得结合了问题单词信息的视频特征pt
其中,pt包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同,均为上述公式。
5、对于频道混合模块CF,原理如下。对于得到的特征pt,包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式ut。由于问题中的单词可能与视频的外表及动作在不同程度上相关,频道混合模块CF使用当前问题单词的单词映射表达xt来确定对于这两种不同视频特征的权重值,并按如下公式进行混合:
其中,Wm为权重矩阵,bm为偏置矩阵,用于将输入的xt转化为二维的向量,分别分配两个维度值给则最终的输出ut吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息。
6、对于记忆模块LSTMa,首先将LSTMq网络的隐藏层状态值之前形成的视频表达 vt-1,视频的综合表达ut相加,形成记忆模块LSTMa的输入,随后输入到LSTMa网络中,其隐藏层状态作为第二个注意力模块ATT2的输入,代替第一个注意力模块ATT1的xt的位置,之后得到ATT2模块的输出
7、对于优化模块REF,利用ATT1模块的输出与ATT2模块的输出来优化注意力值,优化模块REF的优化方法如下面的公式所示:
此处的fi代指视频的帧级别的外表特征及视频的片段级别的动作特征Wf为权重矩阵,bf为偏置矩阵,且Wf及bf与步骤4中的Wf及bf相同,gt包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTMq网络的隐藏层状态值,CF(.)为频道混合模块CF的操作。最终所得到的vt为视频在t时刻的最终混合表达结果。
通过上述步骤,模型使用了精确处理的单词信息及粗糙处理的问题信息来逐步优化视频的外表及动作特征上的注意力值,待AMU网络处理所有问题的单词之后,对于问题的所求答案的最相关及重要的视频的优化表达被形成。
8、得到视频在AMU处理过所有问题单词后的混合表达vT后,结合LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下两种方法中的任一种得到所求问题的答案。
第一种方法为:预先准备一个已经预定义好的答案集合,答案生成器为一个简单的softmax分类器,答案按如下方式生成:
其中,Wc与Wg为权重矩阵,用于改变输出向量的维度。
第二种方法为:利用LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息初始化LSTM网络,并且优化后的视频的混合表达vT作为LSTM网络的第一个输入,之后逐渐按照如下公式来在所有单词构成的单词表中产生单词构成答案:
附图说明
图1是本发明所使用的利用视频外表及动作上的渐进式优化注意力网络的整体示意图。图2是本发明所使用的AMU网络的操作示意图,及本发明使用的AMU网络中的优化模块REF 的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出视频外表及动作上的渐进式优化注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得视频相关问题答案,再与真实的答案进行比较,更新整个注意力网络的参数,得到最终的视频外表及动作上的渐进式优化注意力网络;
3)对于要预测答案的视频和问题,根据生成的视频外表及动作上的渐进式优化注意力网络,得到所预测的答案。
所述的步骤1)采用视频外表及动作上的渐进式优化注意力网络来提取视频及问题的综合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的外表特征及片段级别的动作特征,采用单词映射的方法利用嵌入层将问题单词映射到相应表达;
1.2)利用步骤1.1)找出的问题单词的映射表达,输入到LSTMq网络中,得到其隐藏层状态值
1.3)利用步骤1.1)找出的视频的帧级别的外表特征及片段级别的动作特征,问题单词的映射表达,与步骤1.2)找出的LSTMq网络的隐藏层状态值通过AMU网络,获取视频的混合表达。
所述的步骤1.1)具体为:
对于所给视频,使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数,上标a代表提取的为视频的外表表达,使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数,且与取样的帧数相同,上标m代表提取的为视频的动作表达,对于所给问题Q,可以看作是一个单词序列Q=[q1,q2,...,qT],使用单词映射的方法利用嵌入层将单词qt映射到其语义表达xt
所述的步骤1.3)具体为:
AMU网络中主要有4个操作模块,分别为注意力模块ATT,频道混合模块CF,记忆模块 LSTMa,优化模块REF。利用这4个模块逐渐优化视频的表达。具体步骤如下:
1.3.1)对于注意力模块ATT,输入问题单词的单词映射表达xt,视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出:
ei=tanh(Wffi+bf)Ttanh(Wxxt+bx)
其中,Wf与Wx为权重矩阵,用来将单词映射及视频特征转化到相同大小的潜在映射空间中;fi代指视频帧级别的外表特征或是视频片段级别的动作特征值,bf与bx为偏置向量; ai为最终求出的权重值,反映了当前单词与第i帧之间的相关程度;且将ATT1与ATT2所得到的所有ai构成及集合分别记为之后可以按如下公式求得结合了问题单词信息的视频特征pt
其中,pt包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同,均为上述公式;
1.3.2)对于频道混合模块CF,原理如下,对于得到的特征pt,包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式ut;由于问题中的单词可能与视频的外表及动作在不同程度上相关,频道混合模块CF使用当前问题单词的单词映射表达xt来确定对于这两种不同视频特征的权重值,并按如下公式进行混合:
其中,Wm为权重矩阵,bm为偏置矩阵,用于将输入的xt转化为二维的向量,分别分配两个维度值给则最终的输出ut吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息;
1.3.3)对于记忆模块LSTMa,首先将LSTMq网络的隐藏层状态值之前形成的视频表达vt-1,视频的综合表达ut相加,形成记忆模块LSTMa的输入,随后输入到LSTMa网络中,其隐藏层状态作为第二个注意力模块ATT2的输入,代替第一个注意力模块ATT1的xt的位置,之后得到ATT2模块的输出
1.3.4)对于优化模块REF,利用ATT1模块的输出与ATT2模块的输出来优化注意力值,优化模块REF的优化方法如下面的公式所示:
此处的fi代指视频的帧级别的外表特征及视频的片段级别的动作特征Wf为权重矩阵,bf为偏置矩阵,且Wf及bf与步骤1.3.1)中的Wf及bf相同,gt包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTMq网络的隐藏层状态值,CF(.)为频道混合模块CF的操作,最终所得到的vt为视频在t时刻的最终混合表达结果;
则经过T个问题单词的处理之后,视频最终的混合表达为vT
所述的步骤2)具体为:
对于步骤1.3.4)获得的视频最终的混合表达为vT,结合LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下的两种方法中的任一种获取视频问题的相关答案;
第一种方法为:预先准备一个已经预定义好的答案集合,答案生成器为一个简单的 softmax分类器,答案按如下方式生成:
其中,Wc与Wg为权重矩阵,用于改变输出向量的维度;
第二种方法为:利用LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息初始化LSTM网络,并且优化后的视频的混合表达vT作为LSTM网络的第一个输入,之后逐渐按照如下公式来在所有单词构成的单词表中产生单词构成答案:
随后将生成的答案与训练数据中真实答案在相同位置的单词做比较,根据比较的差值更新注意力网络。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明一共构建了两份数据集,分别为MSVD-QA数据集和MSRVTT-QA数据集,其中MSVD-QA数据集包含1970条视频片段及50505个问答对,MSRVTT-QA数据集包含10K 条视频片段及243K个问答对。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于MSVD-QA数据集和MSRVTT-QA数据集中的每一个视频取20个平均均匀分布的帧和片段,随后对于提取的帧和片段利用预训练好的VGGNet与预训练好的C3DNet处理,其最后一个全链接层的激活函数输出作为相应提取出来的特征,在每一个频道中的特征数为 20,每一个特征的维数为4096。
2)对于问题的单词使用嵌入层进行转换,本发明利用预处理号的300维的GloVe网络来将问题单词映射为所需的单词映射,本发明中令LSTMq的大小为300来匹配上单词映射的维度。
3)对于AMU模块,本发明选择256作为其公共维度大小,视频的特征与单词的映射均要匹配到这一潜在公共空间之中,并且本发明中令LSTMa的大小为256。
4)本发明使用预定义的1000答案分类的softmax选择来生成视频问题的对应答案。
5)本发明从训练数据集中选择最常见的单词作为单词表,MSVD-QA数据集选择了4000个单词,MSRVTT-QA数据集选择了8000个单词。
6)本发明使用mini-batch的随机梯度下降方法优化模型,并且使用了学习率为默认值 0.001的Adam优化器,所有的模型均被训练最多30个循环,使用了早期停止技术,为了更有效地操作不同长度的问题,本发明将问题按照问题长度分为不同的组,MSVD-QA数据集中共4组,MSRVTT-QA数据集中共5组,在每一组中,问题均要转换为该组中的最长问题的长度。所有模型的loss函数为:
其中,N为批数据集的大小,M为可能的答案数目,yi,j为二维指示器用来指出答案j是否为例子i的正确答案,pi,j为本发明将答案j被指定给例子i的概率大小,第二项为L2 正则项,wk代表模型权重,λ1为控制正则项重要性的超参数。
7)为了更有效地训练本发明中的模型,本发明在6)中的loss函数的基础上添加一项来鼓励模型从不同的频道运用特征:
其中,N代表批数据集大小,分别代表指定给例子i的不同频道的重要性分数值。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy 来对于本发明的效果进行评价,且分别对于数据集中不同种类的问题进行结果的求取。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1本发明针对于MSVD-QA数据集不同种类问题的测试结果
表2本发明针对于MSRVTT-QA数据集不同种类问题的测试结果。

Claims (5)

1.一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出视频外表及动作上的渐进式优化注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得视频相关问题答案,再与真实的答案进行比较,更新整个注意力网络的参数,得到最终的视频外表及动作上的渐进式优化注意力网络;
3)对于要预测答案的视频和问题,根据生成的视频外表及动作上的渐进式优化注意力网络,得到所预测的答案。
2.根据权利要求1所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于所述的步骤1)具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的外表特征及片段级别的动作特征,采用单词映射的方法利用嵌入层将问题单词映射到相应表达;
1.2)利用步骤1.1)找出的问题单词的映射表达,输入到LSTMq网络中,得到其隐藏层状态值
1.3)利用步骤1.1)找出的视频的帧级别的外表特征及片段级别的动作特征,问题单词的映射表达,与步骤1.2)找出的LSTMq网络的隐藏层状态值通过AMU网络,获取视频的混合表达。
3.根据权利要求2所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于所给视频,使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数,上标a代表提取的为视频的外表表达,使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数,且与取样的帧数相同,上标m代表提取的为视频的动作表达,对于所给问题Q,可以看作是一个单词序列Q=[q1,q2,...,qT],使用单词映射的方法利用嵌入层将单词qt映射到其语义表达xt
4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
1.3.1)对于注意力模块ATT,输入问题单词的单词映射表达xt,视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出:
ei=tanh(Wffi+bf)T tanh(Wxxt+bx)
<mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,Wf与Wx为权重矩阵,用来将单词映射及视频特征转化到相同大小的潜在映射空间中;fi代指视频帧级别的外表特征或是视频片段级别的动作特征值,bf与bx为偏置向量;ai为最终求出的权重值,反映了当前单词与第i帧之间的相关程度;且将ATT1与ATT2所得到的所有ai构成及集合分别记为之后可以按如下公式求得结合了问题单词信息的视频特征pt
<mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,pt包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同,均为上述公式;
1.3.2)对于频道混合模块CF,原理如下,对于得到的特征pt,包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式ut;由于问题中的单词可能与视频的外表及动作在不同程度上相关,频道混合模块CF使用当前问题单词的单词映射表达xt来确定对于这两种不同视频特征的权重值,并按如下公式进行混合:
<mrow> <msubsup> <mi>s</mi> <mi>t</mi> <mi>a</mi> </msubsup> <mo>,</mo> <msubsup> <mi>s</mi> <mi>t</mi> <mi>m</mi> </msubsup> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>m</mi> </msub> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>u</mi> <mi>t</mi> </msub> <mo>=</mo> <msubsup> <mi>s</mi> <mi>t</mi> <mi>a</mi> </msubsup> <msubsup> <mi>p</mi> <mi>t</mi> <mi>a</mi> </msubsup> <mo>+</mo> <msubsup> <mi>s</mi> <mi>t</mi> <mi>m</mi> </msubsup> <msubsup> <mi>p</mi> <mi>t</mi> <mi>m</mi> </msubsup> </mrow>
其中,Wm为权重矩阵,bm为偏置矩阵,用于将输入的xt转化为二维的向量,分别分配两个维度值给则最终的输出ut吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息;
1.3.3)对于记忆模块LSTMa,首先将LSTMq网络的隐藏层状态值之前形成的视频表达vt-1,视频的综合表达ut相加,形成记忆模块LSTMa的输入,随后输入到LSTMa网络中,其隐藏层状态作为第二个注意力模块ATT2的输入,代替第一个注意力模块ATT1的xt的位置,之后得到ATT2模块的输出
1.3.4)对于优化模块REF,利用ATT1模块的输出与ATT2模块的输出来优化注意力值,优化模块REF的优化方法如下面的公式所示:
<mrow> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mi>t</mi> <mn>1</mn> </msubsup> <mo>+</mo> <msubsup> <mi>a</mi> <mi>t</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow>
<mrow> <msub> <mi>g</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>a</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>C</mi> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>t</mi> <mi>q</mi> </msubsup> <mo>,</mo> <msub> <mi>g</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>
此处的fi代指视频的帧级别的外表特征及视频的片段级别的动作特征Wf为权重矩阵,bf为偏置矩阵,且Wf及bf与步骤1.3.1)中的Wf及bf相同,gt包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTMq网络的隐藏层状态值,CF(.)为频道混合模块CF的操作,最终所得到的vt为视频在t时刻的最终混合表达结果;
则经过T个问题单词的处理之后,视频最终的混合表达为vT
5.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2)具体为:
对于步骤1.3.4)获得的视频最终的混合表达为vT,结合LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下的两种方法中的任一种获取视频问题的相关答案;
第一种方法为:预先准备一个已经预定义好的答案集合,答案生成器为一个简单的softmax分类器,答案按如下方式生成:
<mrow> <mi>a</mi> <mi>n</mi> <mi>s</mi> <mi>w</mi> <mi>e</mi> <mi>r</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>max</mi> <mi> </mi> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>c</mi> </msub> <msubsup> <mi>c</mi> <mi>T</mi> <mi>q</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msubsup> <mi>c</mi> <mi>T</mi> <mi>a</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msub> <mi>v</mi> <mi>T</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,Wc与Wg为权重矩阵,用于改变输出向量的维度;
第二种方法为:利用LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息初始化LSTM网络,并且优化后的视频的混合表达vT作为LSTM网络的第一个输入,之后逐渐按照如下公式来在所有单词构成的单词表中产生单词构成答案:
<mrow> <mi>a</mi> <mi>n</mi> <mi>s</mi> <mi>w</mi> <mi>e</mi> <mi>r</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>max</mi> <mi> </mi> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>c</mi> </msub> <msubsup> <mi>c</mi> <mi>T</mi> <mi>q</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msubsup> <mi>c</mi> <mi>T</mi> <mi>a</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msub> <mi>v</mi> <mi>T</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
随后将生成的答案与训练数据中真实答案在相同位置的单词做比较,根据比较的差值更新注意力网络。
CN201711131317.9A 2017-11-15 2017-11-15 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 Withdrawn CN107818174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711131317.9A CN107818174A (zh) 2017-11-15 2017-11-15 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711131317.9A CN107818174A (zh) 2017-11-15 2017-11-15 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Publications (1)

Publication Number Publication Date
CN107818174A true CN107818174A (zh) 2018-03-20

Family

ID=61609141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711131317.9A Withdrawn CN107818174A (zh) 2017-11-15 2017-11-15 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN107818174A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109472201A (zh) * 2018-09-29 2019-03-15 天津卡达克数据有限公司 一种基于场景、动作和文本的视频问答方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN114186095A (zh) * 2021-12-08 2022-03-15 北京字节跳动网络技术有限公司 一种信息搜索方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEJING XU等: "Video Question Answering via Gradually Refined Attention over Appearance and Motion", 《 MM’17 PROCEEDINGS OF 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
ZHOU ZHAO等: "Video Question Answering via Hierarchical Dual-Level Attention Network Learning", 《MM’17 PROCEEDINGS OF 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109472201A (zh) * 2018-09-29 2019-03-15 天津卡达克数据有限公司 一种基于场景、动作和文本的视频问答方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110377792B (zh) * 2019-06-14 2021-09-21 浙江大学 基于跨模型交互网络实现问题-视频片段抽取任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN114186095A (zh) * 2021-12-08 2022-03-15 北京字节跳动网络技术有限公司 一种信息搜索方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107818174A (zh) 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN108804715A (zh) 融合视听感知的多任务协同识别方法及***
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN107844469A (zh) 基于词向量查询模型的文本简化方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN109346063B (zh) 一种语音数据增强方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN106897268A (zh) 文本语义理解方法、装置和***
CN108763444A (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN106960206A (zh) 字符识别方法和字符识别***
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN108268441A (zh) 句子相似度计算方法和装置及***
CN104021326B (zh) 一种外语教学方法与外语教具
CN109857871A (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN106682387A (zh) 用于输出信息的方法和装置
CN108564122A (zh) 基于卷积-循环混合网络的图像描述模型的一体化训练方法
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
CN112115247A (zh) 一种基于长短时记忆信息的个性化对话生成方法和***
KR20230152741A (ko) 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습
CN115064020B (zh) 基于数字孪生技术的智慧教学方法、***及存储介质
CN111144553A (zh) 一种基于时空记忆注意力的图像描述方法
CN108829756A (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108228674A (zh) 一种基于dkt的信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180320

WW01 Invention patent application withdrawn after publication