CN107766447B

CN107766447B - 一种使用多层注意力网络机制解决视频问答的方法

Info

Publication number: CN107766447B
Application number: CN201710874931.8A
Authority: CN
Inventors: 赵洲; 孟令涛; 林靖豪; 姜兴华; 蔡登�; 何晓飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2021-01-12
Anticipated expiration: 2037-09-25
Also published as: CN107766447A

Abstract

本发明公开了一种利用多层注意力网络机制解决视频问答的方法。主要包括如下步骤：1)针对于一组视频，利用预训练好的卷积神经网络，获得帧级别及分段级别视频表达。2)使用问题单词级别的注意力网络机制，得到针对问题单词级别的帧级别及分段级别视频表达。3)使用问题级别的时间注意力机制，得到与问题相关的帧级别及分段级别视频表达。4)利用问题级别的融合注意力网络机制，得到问题相关的联合视频表达。5)利用所得联合视频表达，获取针对视频所问问题答案。相比于一般视频问答解决方案，本发明利用多层注意力机制，能够更准确地反映视频和问题特性，产生更加符合的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

Description

一种使用多层注意力网络机制解决视频问答的方法

技术领域

本发明涉及视频问答答案生成，尤其涉及一种利用多层注意力网络来生成与视频相关的问题的答案的方法。

背景技术

视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。

现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答，可以取得很好的表现结果，但是这样的方法缺少对于视频中的时间动态信息的建模，所以不能很好地拓展到视频问答任务上面。

针对于视频中经常包含对象物品的外形及其移动信息，并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况，本方法将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧，并且学习与问题相关的有效的视频表达。同时，使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。

本方法将利用2维卷积神经网络进行帧级别的特征提取，利用3维卷积神经网络进行分段级别的视频特征提取。之后利用问题单词级别的注意力网络机制，来分别针对上面获取到的帧级别及分段级别的视频特征，学习得到针对所问问题的单词级别的视频表达。之后利用问题级别的时间注意力机制，学习得到问题相关的帧级别及分段级别的视频表达。最后本方法在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上，利用问题级别的融合注意力网络机制，学习出问题相关的联合视频表达来处理视频问答问题。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题，且针对于视频中经常包含对象物品的外形及其移动信息，并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况，本发明提供一种利用多层注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是：

利用多层注意力网络来解决开放式视频问答问题，包含如下步骤：

1、针对于一组视频、问题、答案训练集，通过2维卷积神经网络获取帧级别的视频特征，通过3维卷积神经网络获取分段级别的视频特征。

2、使用问题单词级别的注意力网络机制，分别针对之前获取的帧级别及分段级别的视频特征，学习得到针对所问问题的单词级别的视频表达。

3、使用问题级别的时间注意力机制，学习得到与问题相关的帧级别及分段级别的视频表达。

4、在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上，利用问题级别的融合注意力网络机制，学习出问题相关的联合视频表达。

5、利用学习得到的问题相关的联合视频表达，获取针对于视频所问问题的答案。

上述步骤可具体采用如下实现方式：

1、对于所给视频，使用预训练的2维卷积神经网络获取视频v的帧级别的特征

其中M^(f)代表视频帧表达v^(f)中的帧数，

代表视频第j帧的嵌入表达。使用预训练的3维卷积神经网络获取视频v的分段级别的特征

其中M^(s)代表视频分段表达v^(s)中的分段数，

代表视频第k分段的嵌入表达。则视频的双重特征表达(包含帧级别及分段级别的特征)为v＝(v^(f),v^(s))。

2、针对于视频的帧级别、分段级别的表达和问题文本均为有着可变长度的序列化数据，本发明选择名为“长短期记忆网络”(Long-Short Term Memory network LSTM)的可变循环神经网络来学习其相关的特征表达，该网络单元的更新方法如下：

f_t＝δ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝δ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝δ_g(W_ox_t+U_oh_t-1+b_o)

在上述公式中，x_t代表输入向量，h_t代表输出向量，c_t代表单元状态向量，W_s和U_s代表参数矩阵，b_s代表偏置向量。激活函数δ_g(.)和δ_h(.)分别代表sigmoid函数与双曲正切函数。

符号代表元素级相乘操作。

则对于通过LSTM网络取得的帧级别的视频特征表达记为

其中

代表视频第i帧的特征表达。对于通过LSTM网络取得的分段级别的视频特征表达记为

其中

代表视频第j分段的特征表达。则对于多层视频表达的第一层LSTM的编码网络输出记为h^(v)＝(h^(f),h^(s))。

对于通过LSTM网络取得的问题的输出状态表达记为

其中

为问题q的第k个单词的输出状态表达。

3、给定问题的输出状态表达

及帧级别的视频特征表达

按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数

其中，

及

为参数矩阵，

为偏置向量，p^(f,w)为用来计算单词级别帧注意力分数的参数向量，tanh(.)为反正切函数，

为视频v的第i帧的输出状态表达，

为问题q的第k个单词的输出状态表达。

对于问题q的第k个单词q_k，其针对第i帧利用softmax函数所得的激活值为：

即单词级别的帧注意力分数的标准化值。

则单词级别的第i帧的注意力表达为

则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接，记为

4、给定问题的输出状态表达

及分段级别的视频特征表达

按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的分段的注意力分数

其中，

及

为参数矩阵，

为偏置向量，p^(s,w)为用来计算单词级别分段注意力分数的参数向量，tanh(.)为反正切函数，

为视频v的第j帧的输出状态表达，

为问题q的第k个单词的输出状态表达。

对于问题q的第k个单词q_k，其针对第j分段利用softmax函数所得的激活值为：

即单词级别的分段注意力分数的标准化值。

则单词级别的第j分段的注意力表达为

则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接，记为

5、之后，将视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中。对于给定的视频增广的帧级别的表达

输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为

对于给定的视频增广的分段级别的表达

则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为

6、给定帧级别的视频增广表达

及问题文本的最后输出状态

则针对于视频第i个编码增广帧的问题级别的帧时间注意力分数为：

其中

与

为参数矩阵，

为偏置向量，p^(f,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。

为第i帧的视频编码增广表达。

对于每一个视频帧的编码增广表达

其针对于问题的时间softmax激活函数为：

即问题级别的帧注意力分数的标准化值。

则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加，即为：

7、给定分段级别的视频增广表达

及问题文本的最后输出状态

则针对于视频第j个编码增广分段的问题级别的分段时间注意力分数为：

其中

与

为参数矩阵，

为偏置向量，p^(s,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。

为第j分段的视频编码增广表达。

对于每一个视频分段的编码增广表达

其针对于问题的时间softmax激活函数为：

即问题级别的分段注意力分数的标准化值。

则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加，即为：

则问题级别的双重时间注意力视频表达为(z^(f,q),z^(s,q))。

8、给定问题级别的双重时间注意力视频表达为(z^(f,q),z^(s,q))，则问题级别的针对于帧的混合注意力分数为：

问题级别的针对于分段的注意力分数为：

其中

为参数矩阵，b_s为偏置向量，p为计算混合注意力分数的参数向量，

为问题文本的最后输出状态，tanh(.)为反正切函数。

9、则以问题级别的双重时间注意力视频表达(z^(f,q),z^(s,q))为基础的问题相关的联合视频表达为：

10、则给定问题相关的联合视频表达z，使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值：

p_a＝sof max(W_zz+b_z)

其中W_z为参数矩阵，b_z为偏置向量，soft max(.)为softmax函数。

随后根据获得的各个候选答案的概率分布输出最可能的答案作为所问问题的最终答案。

并且不仅对于有候选答案的视频问答可以利用本发明的方法获取最佳答案，也可以利用本发明中的问题相关的联合视频表达z，作为LSTM网络的输入，生成开放形式的结合视频内容的问题答案。

附图说明

图1是本发明所使用的对于视频问答问题的多层时空注意力网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用多层注意力网络机制来解决视频问答的方法包括如下步骤：

1)对于输入的视频及问题，训练出多层注意力网络来获取问题相关的联合视频表达；

2)对于步骤1)所得到的问题相关的联合视频表达，利用神经网络获得答案的概率分布，再与真实的答案进行比较，更新整个多层注意力网络的参数，得到最终的多层注意力网络；

3)对于要预测答案的视频和问题，根据生成的多层注意力网络，得到所预测的答案。

所述的步骤1)采用多层注意力网络来提取视频及问题的综合表达,其具体步骤为:

1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达；

1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征，通过LSTM网络，获取视频的帧级别及分段级别的时间特征表达；对于视频相关的问题文本，通过LSTM网络，获取问题的输出状态表达；

1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征，结合步骤1.2)找出的问题的输出状态表达，通过注意力模型，找出视频增广的帧表达及增广的分段表达；

1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达，结合步骤1.2)找出的问题的输出状态表达的最后一层的表达，通过注意力模型，得到问题级别的双重时间注意力视频表达；

1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达，结合步骤1.2)找出的问题的输出状态表达的最后一层的表达，通过注意力模型，得到问题相关的联合视频表达。

所述的步骤1.1)具体为：

对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征

其中M^(f)代表视频帧表达v^(f)中的帧数，

代表视频第j帧的嵌入表达；使用预训练的3维卷积神经网络获取视频v的分段级别的特征

其中M^(s)代表视频分段表达v^(s)中的分段数，

代表视频第k分段的嵌入表达；则视频的双重特征表达(包含帧级别及分段级别的特征)为v＝(v^(f),v^(s))。

所述的步骤1.2)具体为：

对于步骤1.1)获得的视频的帧级别的表达

输入到LSTM网络中，获得帧级别的视频特征表达，记为

其中

代表视频第i帧的特征表达；对于步骤1.1)获得的视频的分段级别的表达

输入到LSTM网络中，获得分段级别的视频特征表达，记为

其中

代表视频第j分段的特征表达；则对于多层视频表达的第一层LSTM的编码网络输出记为h^(v)＝(h^(f),h^(s))；

对于问题文本，输入到LSTM网络中，获得问题的输出状态表达，记为

其中

为问题q的第k个单词的输出状态表达。

所述的步骤1.3)具体为：

对于步骤1.2)获得的问题的输出状态表达

及帧级别的视频特征表达

其中，

及

为参数矩阵，

为视频v的第i帧的输出状态表达，

为问题q的第k个单词的输出状态表达；

则对于问题q的第k个单词q_k，其针对第i帧利用softmax函数所得的激活值为：

即单词级别的帧注意力分数的标准化值；

则单词级别的第i帧的注意力表达为

对于步骤1.2)获得的问题的输出状态表达

及分段级别的视频特征表达

按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的帧的注意力分数

其中，

及

为参数矩阵，

为视频v的第j帧的输出状态表达，

为问题q的第k个单词的输出状态表达；

则对于问题q的第k个单词q_k，其针对第j分段利用softmax函数所得的激活值为：

即单词级别的分段注意力分数的标准化值；

则单词级别的第j分段的注意力表达为

所述的步骤1.4)具体为：

将步骤1.3)获得的视频增广的帧级别表达

与视频增广的分段级别的表达

分别输入到第二层LSTM网络中；则对于给定的视频增广的帧级别的表达

对于给定的视频增广的分段级别的表达

结合所得到的针对于帧级别的视频增广表达的LSTM输出

及问题文本的最后输出状态

按如下公式获取针对于视频第i个编码增广帧的问题级别的帧时间注意力分数：

其中

与

为参数矩阵，

为偏置向量，p^(f,q)为计算问题级别的帧时间注意力分数的参数向量，tanh(.)为反正切函数，

为第i帧的视频编码增广表达；

对于每一个视频帧的编码增广表达

其针对于问题的时间softmax激活函数为：

即问题级别的帧注意力分数的标准化值；

结合所得到的针对于分段级别的视频增广表达的LSTM输出

及问题文本的最后输出状态

按如下公式获取针对于视频第j个编码增广分段的问题级别的分段时间注意力分数：

其中

与

为参数矩阵，

为偏置向量，p^(s,q)为计算问题级别的帧时间注意力分数的参数向量，tanh(.)为反正切函数，

为第j分段的视频编码增广表达；

对于每一个视频分段的编码增广表达

其针对于问题的时间softmax激活函数为：

即问题级别的分段注意力分数的标准化值；

则问题级别的双重时间注意力视频表达为(z^(f,q),z^(s,q))。

所述的步骤1.5)具体为：

利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z^(f,q),z^(s,q))，按如下公式获得问题级别的针对于帧的混合注意力分数s^(f)及问题级别的针对于分段的注意力分数s^(s)：

其中

为问题文本的最后输出状态，tanh(.)为反正切函数；

则以问题级别的双重时间注意力视频表达(z^(f,q),z^(s,q))为基础的问题相关的联合视频表达为：

所述的步骤2)具体为：

利用步骤1.5)获得的问题相关的联合视频表达z，使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值：

p_a＝sof max(W_zz+b_z)

其中W_z为参数矩阵，b_z为偏置向量，soft max(.)为softmax函数；

随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较，根据比较的差值更新整个多层注意力网络。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在自己构建的数据集上面进行实验验证，一共构建了两份数据集，分别为YouTube2Text数据集和VideoClip数据集，其中YouTube2Text数据集包含1987条视频片段及122708条文字描述，VideoClip数据集包含201068条视频片段及287933条文字描述。本发明针对于两份数据集中的文字描述分别生成对应的问题答案对，对于YouTube2Text数据集，本发明生成四种问题答案对，分别与视频的对象、数目、地点、人物相关；对于VideoClip数据集，本发明生成四种问题答案对，分别与视频的对象、数目、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理：

1)对于YouTube2Text数据集中的每一个视频取60帧，对于VideoClip数据集中的每一个视频取20帧，将所取的那些帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小，随后利用预训练好的VGGNet获取每一帧的4096维的特征表达。

2)对于YouTube2Text数据集中的每一个视频，利用预训练好的C3DNet获取每一个视频的30个分段，对于VideoClip数据集中的每一个视频，利用预训练好的C3DNet获取每一个视频的5个分段，两个数据集中每个视频提取的每个分段均包含16帧。

3)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地，单词集中含有6500个单词，单词向量的维度为300维。

4)对于YouTube2Text数据集，我们把预定义的答案种类数目设定为495。对于VideoClip数据集，我们把预定义的答案种类数目设定为300。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了Accuracy来对于本发明的效果进行评价。对于本发明提出的DLAN(Dual-Level AttentionNetwork)分为以下3类进行测试，DLAN_(f)(仅包含帧级别的视频表达)，DLAN_(s)(仅包含分段级别的视频表达)，DLAN(既包含帧级别也包含分段级别的视频表达)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化，初始的学习率设定为1e-3，每一个LSTM网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(early stopping),批数据集大小(batch size)设为100，使用了ADAM(Adaptive MomentEstimation)的梯度下降技术。另外，对于YouTube2Text数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、地点问题(Location)、人物问题(Person))分别求取测试结果，VideoClip数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示：

表1 本发明针对于YouTube2Text数据集不同种类问题的测试结果

表2 本发明针对于VideoClip数据集不同种类问题的测试结果