CN112527993A

CN112527993A - 一种跨媒体层次化深度视频问答推理框架

Info

Publication number: CN112527993A
Application number: CN202011499931.2A
Authority: CN
Inventors: 余婷; 来炳; 钱璐
Original assignee: Zhejiang University Of Finance & Economics Dongfang College
Current assignee: Zhejiang University Of Finance & Economics Dongfang College
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19
Anticipated expiration: 2040-12-17
Also published as: CN112527993B

Abstract

本发明公开了一种跨媒体层次化深度视频问答推理框架。本发明步骤:1、利用记忆组件保存视频的全局语义信息，通过多轮记忆更新迭代得到浅层推理机。2、基于浅层推理机，构建深层推理机，将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽，形成空间记忆和时序记忆。3、构建多模态记忆协同推理框架，利用来自对象和动作的多模态证据执行更为精细的推理。4、进行多模态记忆动态融合，利用浅层推理机的输出作为监视哨，引导下层不同模态记忆内容的权重分配，通过框架中的记忆动态融合模块动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。本发明推理框架能够在视频问答数据集上取得显著的效果。

Description

一种跨媒体层次化深度视频问答推理框架

技术领域

本发明涉及一种针对视频问答的深度神经网络，尤其涉及一种基于跨媒体统一表达的层次化深度推理框架。

背景技术

跨媒体技术旨在打通不同媒体(如视频媒体、文本媒体)之间的“语义鸿沟”，形成统一的跨媒体语义表达。但由于多媒体数据本身语义的复杂性，在深度学习出现之前，该问题一直没有得到很好地解决。近年来，深度学习在各个研究领域上都取得了惊人的成绩，它借助复杂的神经网络模型对需要解决的任务进行端到端建模，学习跨媒体数据的深度统一表达。由于深度模型强大的语义表达能力，深度跨媒体统一表达模型成为目前的主流方法。

在深度跨媒体统一表达的理论基础上，衍生出一些目前热门的分支方向，如跨媒体检索、视觉描述以及视觉问答等。跨媒体检索旨在给定一种媒体数据从海量数据库中找到最匹配的另一种媒体的相关数据；视觉描述的目标是给一张图像使用一句或几句自然语言对其内容进行有效概述；视觉问答的目标在于使用自然语言描述的问题和一个视觉数据对象作为输入，算法在充分理解自然语言描述和视觉内容后，进行深度推理，最终输出一个自然语言描述的答案。这些任务中，视觉问答相对来说更有挑战性，它涉及视觉内容和自然语言的细粒度理解，同时还需要进行深度知识推理。因此，视觉问答成为近年来学界的研究热点。

视频数据作为一种主流的视觉数据对象，大规模存在于各种社交网站中，它的数据量几乎超过其他媒体数据的总和。相比于图像，视频数据更为复杂。视频不是图像序列数量上简单的堆叠，它包含有视觉、文本、语音等多个模态的数据信息。视频中的视觉对象会随着时间的变化呈现不同视角的视觉特征，且不同时刻的空间视觉信息相互关联。另外，基于视频数据的视觉问答涉及更为复杂的问题。用户可以根据视频内容提出高自由度的多样性问题。视频问答任务下的问题除了颜色、数量、位置等静态空间信息相关的问题外，通常还包括动作类别、动作时序关系推理等复杂的问题。另外，给定一个视频数据对象，模型对于不同的问题给出正确的回答所依赖的视觉信息量是不同的。有的问题只依赖一帧信息就能给出有效回答，有的则需要理解完整视频的语义才能正确预测出答案。

综上所述，视频问答的难点在于如何在正确有效地理解视频内容以及充分准确地理解问题意图的基础上，构建高效的跨媒体问答推理框架，从而提升答案预测的准确性。

发明内容

本发明提供了一种针对复杂长时视频问答的深度分层推理框架，该架构主要包含：1、构建浅层推理机：执行无关信息过滤功能，从复杂长时视频所有可能的长序列信息中识别出与问题描述相关的重要视觉内容，过滤掉无关的视觉信息，避免深层记忆网络信息及噪声的超载；2、构建深层推理机：在浅层推理机的引导下，利用来自视觉和自然语言更深层的语义证据进行更精细的推理，学习更为细粒度的注意力，以提高跨模态任务推理的质量。在视频问答方面，利用本发明的深度推理框架改善推理质量，取得了比传统视觉问答模型更好的效果。3、记忆动态融合模块：用于动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。

本发明解决其技术问题所采用的技术方案如下：

步骤(1)、利用记忆组件保存视频的全局语义信息，在问题描述的全局视觉特征的引导下，通过多轮记忆更新迭代得到浅层推理机，用于推理与问题描述的全局语义特征最相关的视觉信息。

步骤(2)、基于浅层推理机，构建深层推理机，将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽，形成空间记忆和时序记忆。

步骤(3)、构建多模态记忆协同推理框架，利用来自对象和动作的多模态证据执行更为精细的推理，以提高问答的质量。

步骤(4)、进行多模态记忆动态融合，利用浅层推理机的输出作为监视哨，引导下层不同模态记忆内容的权重分配，通过框架中的记忆动态融合模块动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。

进一步的，步骤(1)所述的利用记忆组件保存视频的全局语义信息，在问题描述的全局视觉特征的引导下，通过多轮记忆更新迭代，推理出与问题描述的全局语义特征最相关的视觉信息，具体如下：

1-1.为了将视频特征

和问题描述特征h_T输入到记忆组件中，首先将输入特征转化为记忆网络的内在向量特征，如公式(1)(2)所示：

X^e＝tanh(W_xX+b_x) (公式1)

其中，X^e、

分别指代视频特征和问题描述特征转化后的视频特征和问题描述特征；

是映射矩阵，

是偏置，d_z是记忆网络的内在空间维度。

1-2.使用硬注意力机制进行特征选择。计算问题描述特征

与视频特征X^e之间的相似度，根据相似度的分数对视频特征进行排序，挑选出相似度最高的前n个与问题最相关的视频特征去更新浅层推理机中的记忆单元，从而得到最近邻的n个键值对，key＝{k₁，k₂，...，k_n}，value＝{v₁，v₂，...，v_n}，更新后的视频特征序列集，如公式(3)所示：

Γ(y₁，...，y_n)＝{j₁，...j_n}，当y_j1≥y_j2≥…≥y_jn (公式4)

其中f_s表示相似性测度，Γ是排序操作。

1-3.基于更新后的视频特征序列集，浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ。通过加权和操作获得浅层推理机的输出z，结合原始输入的问题描述特征作为下一轮推理的问题。公式(5)(6)中的G_x和G_q分别表示两个前馈全连接神经网络。

其中v_i为第i个记忆单元的存储内容。

步骤(2)所述的基于引导型浅层推理机，构建深层多模态记忆网络，将视频深层语义解析下的多模态子成分嵌入不同模态的记忆模块，形成空间记忆和时序记忆，具体如下：

通过一个1×1的卷积神经网络将视频中的对象特征

转化为空间记忆模块的内在向量特征，使用另一个1×1的卷积神经网络将视频中的动作特征

嵌入到时序记忆模块。其中d_o为对象特征的维度，k为对象的数量，d_a为动作特征的维度，l为动作的数量。

所述的多模态子成分包括对象特征和动作特征；

所述的不同模态的记忆模块包括空间记忆模块和时序记忆模块；步骤(3)构建多模态记忆协同推理框架，利用来自对象和动作的多模态证据执行更为精细的推理，具体如下：

3-1.对于第λ轮推理，给定动作特征a_i，问题的描述特征h′_l和上一时刻的动作记忆

通过P(·)和D(·)这两个组合相似度的计算获得动作特征的相似度分布

如公式(7)所示。同样的给出对象特征o_i，得到对象特征上的相似度分布

如公式(8)所示。

其中，P(·)和D(·)是两个相似度计算函数。

3-2.考虑到对象特征和动作特征对于高质量的推理问答都起着非常重要的作用，多模态记忆协同推理框架作为一个可交互的推理机，允许动作记忆和对象记忆动态交互，当更新某一模态的记忆时，另一模态的记忆会为注意力的学习提供有用的线索，具体地：

计算某一模态记忆内容的更新门控信号时，除了考虑模态本身之外，还需要考虑另一模态的影响。以动作模态为例，动作记忆的更新门控信号

可以由公式(10)得到，随后采用基于GRU的注意力机制来提取上下文特征

并用它来更新本轮的动作记忆

如公式(11)所示。

其中，

为一组映射矩阵，

为对应的偏置。

同理得到本轮的对象记忆

如公式(14)所示。

其中，

为一组映射矩阵，

为对应的偏置。

步骤(4)进行多模态记忆动态融合，利用浅层推理机的输出作为监视哨，引导下层不同模态记忆内容的权重分配，通过框架中的记忆动态融合模块动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案，其具体过程如下：

4-1.由于问题描述的复杂性和多样性，不同的视觉子模态对于问答模型的贡献大小是动态变化的。记忆动态融合模块利用浅层推理机的输出u′作为监视哨，结合问题描述的原始嵌入特征q^e，引导深层推理机不同模态记忆内容的权重分配，动态融合不同模态的记忆，融合后的记忆

可由公式(15)计算得到：

其中，其中

是可学习的参数，α是密度向量，α^a和α^o是密度向量α的两个元素。

4-2.记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。具体地将

和问题特征q^e做融合，再通过权重矩阵W_p的映射得到特征向量ν，如公式(16)所示。

将得到的特征向量ν输入到一个回答模块(多分类器)中去预测问题的答案。

本发明有益效果：

本发明对复杂的长时网络视频问答问题，提出了一种新的由粗到细的层次深度推理框架，首先通过构建浅层推理机从一个长视频序列中过滤无效信息并且识别出重要视觉内容，学习粗粒度的视频全局的注意力，然后构建深层推理机分别从帧间和帧内两个方向进行深度优化推理。通过多轮推理迭代，我们的推理框架能够模拟人类的视频问答推理过程，先从长时视频中定位与问题相关的关键时刻，再收集相关的证据来预测答案。我们发明的推理框架能够在视频问答数据集上取得显著的效果。

附图说明

图1是本发明方法的总体框架示意图。

图2是本发明方法中构造的引导型浅层推理机。

图3是本发明方法中构造的优化型深层推理机。

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1所示，本发明提供一种针对复杂视频问答的层次化深度问答推理框架。

步骤(1)所述的利用记忆组件保存视频的全局语义信息，在问题描述的全局视觉特征的引导下，通过多轮记忆更新迭代得到浅层推理机，用于推理与问题描述的全局语义特征最相关的视觉信息，如图2所示，具体如下：

1-1.提取视频特征

和问题描述特征h_T，将其输入到记忆组件中，并将输入转化为记忆网络的内在向量特征。

对于全局视频数据特征的提取，使用大规模预训练的神经网络VGG和3D-CNN去抽取中间特征，这些特征再输入双向GRU网络得到全局感知的语义特征

其中

d_x＝2048是特征的维度。对于问题描述特征的提取，首先采用浅层词嵌入模型Glove对每个词进行编码来捕捉单词的语义，之后将生成的词向量依次输入含有d_q＝256隐含单元的双向LSTM网络，学习问题描述的上下文信息，最后拼接每个时刻前后向的隐藏状态来表示问题描述的全局语义

接着，将视频特征和问题描述特征输入到记忆组件中，将输入转化为记忆网络的内在向量，其中

是映射矩阵和偏置，d_z＝256是记忆网络的内在空间维度。

1-2.使用硬注意力机制进行特征选择。计算问题描述特征与视频特征之间的相似度，根据相似性分数对视频特征进行排序，挑选出相似度最高的前20个与问题最相关的视频特征去更新记忆网络的存储单元，从而得到最近邻的20个键值对，key＝{k₁，k₂，...，k_n}，value＝{v₁，v₂，...，v_n}，形成更新后的视频特征序列。

1-3.基于更新后的记忆内容，学习问题描述在每个记忆单元上的概率分布ρ。通过加权和操作获得该层网络的输出z，结合问题描述的原始特征作为下一轮推理的更新后的问题。

步骤(2)所述的在浅层推理机的基础上，构建深层推理机，将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽，形成空间记忆和时序记忆，具体如下：

利用现有的Faster-RCNN模型抽取视频对象的特征，基于浅层推理机，利用Faster-RCNN模型在20个重要的视频单元内依次检测出36个目标，对每个目标的物体提取4096维的对象特征。接着，通过一个1×1的卷积神经网络将视频中的对象特征，转化为空间记忆模块的内在向量，形成空间记忆。

借助一个外部预训练的视频时序候选生成网络来预测视频中最具有潜在动作的前l＝30个时序段，对这30个时序段按照步骤(1)提取视频的特征作为视频动作特征。使用另一个1×1的卷积神经网络将视频中的动作特征

嵌入到时序记忆模块，形成时序记忆。

步骤(3)所述的构建多模态记忆协同推理，利用来自对象和动作的多模态证据执行更为精细的推理，如图3所示，具体如下：

3-1.利用来自对象和动作的多模态证据执行更为精细的推理，对于第λ轮推理，给定动作特征，问题的特征和上一时刻的动作记忆

我们通过元素点乘相似度函数和元素绝对值相似度函数的计算获得动作特征的相似度分布。同理可以得到对象特征上的相似度分布。

3-2.计算记忆更新门控信号。在计算动作记忆的更新门控

时，除了考虑动作模态本身之外，还需要考虑对象模态的影响。同理，在计算对象记忆的更新门控

时，除了考虑对象模态，还需要动作模态来提供有利的线索。随后采用基于GRU的注意力机制来提取上下文特征，并用它来更新本轮的动作记忆

步骤(4)进行多模态记忆动态融合模块动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案，如图3所示，具体如下：

4-1.记忆动态融合模块利用浅层推理机的输出作为监视哨，引导深层不同模态记忆内容的权重分配，动态融合不同模态的记忆。该模块首先将256维的浅层推理机的记忆u′和300维的问题特征q^e进行拼接，再经过一个2×556的矩阵变换后通过softmax的二分类器，得到深层推理机的不同子模态的权重，最后使用加权和运算得出融合后的记忆

4-2.记忆动态融合模块的输出作为回答模块的输入去预测最佳答案。具体地，将动态融合模块的融合记忆

和问题特征q^e做元素点乘操作，得到一个300维的特征向量，再通过一个1000×300的权重矩阵W_p，映射得到一个1000维的特征向量ν，接着我们将得到的特征向量ν输入到一个1000路的softmax分类器中获取答案字典的概率分布，模型采用端到端的方式进行训练，使用softmax交叉熵作为损失函数来优化模型，直至网络收敛。

Claims

1.一种跨媒体层次化深度视频问答推理框架，其特征在于包括如下步骤：

步骤(1)、利用记忆组件保存视频的全局语义信息，在问题描述的全局视觉特征的引导下，通过多轮记忆更新迭代得到浅层推理机，用于推理与问题描述的全局语义特征最相关的视觉信息；

步骤(2)、基于浅层推理机，构建深层推理机，将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽，形成空间记忆和时序记忆；

步骤(3)、构建多模态记忆协同推理框架，利用来自对象和动作的多模态证据执行更为精细的推理，以提高问答的质量；

2.根据权利要求1所述的一种跨媒体层次化深度视频问答推理框架，其特征在于步骤(1)具体如下：

1-1.为了将视频特征

X^e＝tanh(W_xX+b_x) (公式1)

其中，X^e、

是映射矩阵，

是偏置，d_z是记忆网络的内在空间维度；

1-2.使用硬注意力机制进行特征选择，计算问题描述特征

Γ(y₁，...，y_n)＝{j₁，...j_n}，当y_j1≥y_j2≥…≥y_jn (公式4)

其中f_s表示相似性测度，Γ是排序操作；

1-3.基于更新后的视频特征序列集，浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ；通过加权和操作获得浅层推理机的输出z，结合原始输入的问题描述特征作为下一轮推理的问题；公式(5)(6)中的G_x和G_q分别表示两个前馈全连接神经网络；

其中v_i为第i个记忆单元的存储内容。

3.根据权利要求2所述的一种跨媒体层次化深度视频问答推理框架，其特征在于步骤(2)具体如下：

通过一个1×1的卷积神经网络将视频中的对象特征

嵌入到时序记忆模块；其中d_o为对象特征的维度，k为对象的数量，d_a为动作特征的维度，l为动作的数量；

所述的多模态子成分包括对象特征和动作特征。

4.根据权利要求3所述的一种跨媒体层次化深度视频问答推理框架，其特征在于步骤(3)具体如下：

3-1.利用来自对象和动作的多模态证据执行更为精细的推理，对于第λ轮推理，给定动作a_i，问题的动词特征h′_l和上一时刻的动作记忆

如公式(7)所示；同样得到对象特征上的相似度分布

如公式(8)所示；

3-2.多模态记忆协同推理模块作为一个可交互的推理机，允许动作记忆和对象记忆动态交互，当更新某一模态的记忆时，另一模态的记忆会为注意力的学习提供有用的线索；当动作模态更新时，动作记忆的更新门控

由公式(10)得到，随后采用基于GRU的注意力机制来提取上下文特征

并用它来更新本轮的动作记忆

如公式(11)所示；

其中，

为一组映射矩阵，

为对应的偏置；

同理得到对象特征上的相似度分布

如公式(14)所示；

其中，

为一组映射矩阵，

为对应的偏置。

5.根据权利要求4所述的一种跨媒体层次化深度视频问答推理框架，其特征在于步骤(4)进行多模态记忆动态融合，利用浅层推理机的输出u′作为监视哨，结合问题描述的原始嵌入特征q^e，引导下层不同模态记忆内容的权重分配，动态融合不同模态的记忆，该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案，其具体过程如下：

4-1.记忆动态融合模块利用上层记忆网络的输出作为监视哨，引导下层不同模态记忆内容的权重分配，动态融合不同模态的记忆，融合后的记忆

可由公式(15)计算得到：

其中，

是可学习的参数，α是密度向量，α^a和α^o是密度向量α的两个元素；

4-2.记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案；具体地：将

和问题特征q^e做融合，再通过权重矩阵W_p的映射得到特征向量ν，如公式(16)所示；

得到的特征向量ν输入到一个多分类器中去预测问题的答案。