CN110377792A

CN110377792A - 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法

Info

Publication number: CN110377792A
Application number: CN201910516683.9A
Authority: CN
Inventors: 赵洲; 孟令涛; 张竹; 陈漠沙; 仇伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-25
Anticipated expiration: 2039-06-14
Also published as: CN110377792B

Abstract

本发明公开了一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。主要包括如下步骤：1)针对问题语句与视频帧，利用语义图像卷积网络、多头自注意力模块、与多步骤跨模型交互模块获取视频帧的跨模型语义表达。2)对获得的视频帧的跨模型语义表达，计算损失函数并训练模型，利用训练后的跨模型交互网络，对视频进行以问题为基础的片段抽取。相比于一般的视频片段抽取解决方案，本发明对多种有效信息进行综合利用。本发明在以问题为基础的视频片段抽取任务中所取得的效果相比于传统的方法更好。

Description

一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法

技术领域

本发明涉及以问题为基础的视频片段抽取任务，尤其涉及一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。

背景技术

当下，视频片段抽取任务成为一项重要的服务，但是目前已有该项服务的效果并不是很好。

现有的技术主要是仅仅关注视频片段抽取任务中的一个方面，例如只关注问题描述学习、视频内容建模、跨模型表达混合，这样便忽略了对多种有效信息的综合利用，来提高视频片段抽取的精确性。为了克服该缺陷，本方法将使用跨模型交互网络解决以问题为基础的视频片段抽取任务。

本发明将利用一个语义图像卷积网络抓取提问中的语法结构，获得提问的语义表达，利用多头自注意力模块获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达，利用多步跨模型交互来获取视频与提问内容之间的联系。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中只关注视频片段抽取任务中的一个方面，忽略了对于多种有效信息的综合利用的问题，本发明提供一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。本发明所采用的具体技术方案是：

一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，包括如下步骤：

1、针对问题语句，利用语义图像卷积网络获取问题语句的语义表达；

2、针对视频，获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达；

3、利用步骤1获取的问题语句的语义表达与步骤2获取的自注意力视频语义表达，获取视频帧的跨模型语义表达；

4、利用步骤3获得的视频帧的跨模型语义表达，计算得到跨模型交互网络的损失函数；

5、利用步骤4获得的跨模型交互网络的损失函数，对跨模型交互网络进行训练，利用训练后的跨模型交互网络，对视频进行以问题为基础的片段抽取。

进一步的，所述的步骤1具体为：

针对问题语句，利用提前训练好的Glove word2vec模型获取问题语句的单词表达q＝(q₁,q₂,...q_i,...q_m)，其中q_i代表问题语句中第i个单词的Glove特征表达向量；将问题语句的单词表达q＝(q₁,q₂,...q_i,...q_m)输入到双向GRU网络中，获取问题语句的上下文单词表达其中代表问题语句中第i个单词的上下文单词表达；

利用自然语言处理工具方法，获取问题语句中的语义依赖图θ＝(ν,ε)，其中ν代表语义依赖图中所有点的集合，每个语义依赖图中的点为问题语句的一个单词；ε代表语义依赖图中所有边的集合，每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系；

按照如下公式计算获得l层语义图像卷积网络的输出作为问题语句的语义表达，

其中，表示第l层语义图像卷积网络输出中第i个单词对应的输出，代表可训练的变换矩阵，dir(i,j)代表(i,j)边的指向方向，代表可训练的偏置向量，lab(i,j)代表(i,j)边的标签，N(i)代表所有与点i有依赖关系的点的集合，ReLU(·)代表ReLU运算，g^k代表第k层语义图像卷积网络的中间输出，k＝(1,2,...,l)。

进一步的，所述的步骤2具体为：

针对视频，利用提前训练好的3维卷积网络，获取视频帧特征V＝(v₁,v₂,...v_i,...,v_n)，其中v_i代表视频中第i帧的特征；利用如下公式计算得到自注意力视频表达

V^s＝MultiHead(V,V,V)+V

MultiHead(V,V,V)＝W^OConcat(head₁,head₂,...,head_H)

head_i＝Attention(W_i ¹V,W_i ²V,W_i ³V)

其中，W^O、W_i ¹、W_i ²、W_i ³为可训练的线性映射矩阵，Softmax(·)代表softmax运算，d_k代表矩阵W_i ¹、W_i ²、W_i ³的行数；

将自注意力视频表达输入到双向GRU网络中，获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达

进一步的，所述的步骤3具体为：

利用步骤1获取的问题语句的语义表达与步骤2获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M，

其中M_ij代表矩阵M中的第i行第j列元素，W₁ ^m、为可训练的参数矩阵，b^m为可训练的偏置向量，w^T为行向量，tanh(·)代表双曲正切函数计算；

利用得到的视频问题注意力矩阵M与问题语句的语义表达按照如下公式计算得到视频帧的聚合问题表达

其中，M_ij代表矩阵M中的第i行第j列元素，exp(·)代表以自然常数e为底的指数函数计算，h_i ^s代表视频第i帧的聚合问题表达；

利用得到的视频帧的聚合问题表达与自注意力视频语义表达按照如下公式计算得到过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达

其中，W^v、W^s代表可训练的参数矩阵，b^v、b^s代表可训练的偏置向量，σ(·)代表sigmoid函数计算，代表元素级别的相乘计算，代表过滤后的视频第i帧的聚合问题表达，代表过滤后的自注意力视频第i帧的语义表达；

利用得到的过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达按照如下公式计算得到视频帧的跨模型语义表达f＝(f₁,f₂,...f_i,...f_n)，

其中，p^f代表可训练的参数向量，W^vf、W^sf代表可训练的参数矩阵，b^f代表可训练的偏置向量，σ(·)代表sigmoid函数计算，f_i代表视频第i帧的跨模型语义表达。

进一步的，所述的步骤4具体为：

将步骤3获得的视频帧的跨模型语义表达f＝(f₁,f₂,...f_i,...f_n)输入到双向GRU中，获得视频帧的最终语义表达对视频每个帧，利用可变长度窗口预定义一组预定义候选片段集合其中C_i代表视频第i帧的预定义候选片段集合，代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界，w_j代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度，k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目；利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数，

其中，cs_i为k维向量，cs_i代表视频第i帧的k个预定义候选片段对应的置信度分数，cs_ij代表视频第i帧第j个预定义候选片段对应的置信度分数，W^c代表可训练的参数矩阵，b^c代表可训练的偏置向量，σ(·)代表sigmoid函数计算；

利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值，

其中，为2k维向量，代表视频第i帧的k个预定义候选片段对应的预测偏离值，代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值，W^o代表可训练的参数矩阵，b^o代表可训练的偏置向量；

对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段，计算与目标片段(s,e)的IoU值，对IoU值小于边界值λ的预定义候选片段，将其IoU值设为0；利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值，按照如下公式计算校准损失函数L_align，

L_ij＝(1-IoU_ij)·log(1-cs_ij)+IoU_ij·log(cs_ij)

其中，IoU_ij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值，cs_ij代表视频第i帧第j个预定义候选片段对应的置信度分数，log(·)代表以自然常数e为底的对数函数计算；

对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值，取出其中IoU值大于边界值γ的预定义候选片段，构成集合C_h；利用集合C_h中所有预定义候选片段的开始边界与结束边界及相应目标片段的开始边界s与结束边界e，结合得到的视频每个帧所有预定义候选片段的预测偏离值，按照如下公式计算得到回归损失函数L_reg，

其中，N代表集合C_h中所有预定义候选片段的数目，R(·)代表平滑L1计算，δ_s代表集合C_h中第i个预定义候选片段的起点实际偏离值，δ_e代表集合C_h中第i个预定义候选片段的终点实际偏离值，代表集合C_h中第i个片段的起点预测偏离值，代表集合C_h中第i个片段的终点预测偏离值，i＝(1,2,...,N)；

利用得到的校准损失函数L_align与回归损失函数L_reg，按照如下公式计算得到跨模型交互网络的损失函数L，

L＝L_align+α·L_reg

其中，α代表平衡校准损失函数L_align与回归损失函数L_reg的超参数。

进一步的，所述的步骤5具体为：

利用步骤4获得的跨模型交互网络的损失函数，对跨模型交互网络进行训练，获得训练后的跨模型交互网络；利用训练后的跨模型交互网络，输入视频与问题，获得视频中所有预定义候选片段的置信度分数，将置信度分数最高的视频片段抽取出来，作为对视频进行以问题为基础的片段抽取的结果。

本发明的有益效果为：

(1)本发明对以问题为基础的视频片段抽取任务，综合考虑到了多种相关因素，包括自然语言形式问题语句的语义结构、视频内容的长范围语义依赖、多模型有效结合；

(2)本发明利用语义图像卷积网络提取自然语言形式问题语句的语义结构，从而得到了自然语言形式问题语句更有效的语义表达，同时本发明利用多头自注意力模块获取了包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。在获取问题语句的语义表达与自注意力视频语义表达的基础上，本发明设计了一种多步骤跨模型交互模块获取视频帧的跨模型语义表达，之后利用获取的视频帧的跨模型语义表达，计算模型损失函数，并利用损失函数进行模型训练。利用训练后的模型对视频进行以问题为基础的片段抽取；

(3)本发明可以更有效地提取出视频中与问题语句相关的片段；在ActivityCaption数据集与TACoS数据集上进行实验，实验发现，本发明可以取得较好的效果。

附图说明

图1是本发明使用的用来解决以问题为基础的视频片段抽取任务的跨模型交互网络模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，图1中a)代表利用语义图像卷积网络获取问题语句的语义表达，图1中b)代表利用多头自注意力模块获取自注意力视频语义表达；图中c)代表利用多步骤跨模型交互模块获取视频帧的跨模型语义表达；图1中d)代表利用片段提取模块获取视频片段。

本发明一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法包括如下步骤：

步骤一，针对问题语句，利用语义图像卷积网络获取问题语句的语义表达。

利用自然语言处理工具方法，获取问题语句中的语义依赖图θ＝(ν,ε)，其中ν代表语义依赖图中所有点的集合，每个语义依赖图中的点为问题语句的一个单词；ε代表语义依赖图中所有边的集合，每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系，及单词自身到自身的自循环依赖关系；

步骤二，针对视频，获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达，其具体步骤为:

V^s＝MultiHead(V,V,V)+V

MultiHead(V,V,V)＝W^OConcat(head₁,head₂,...,head_H)

head_i＝Attention(W_i ¹V,W_i ²V,W_i ³V)

将自注意力视频表达输入到双向GRU网络中，获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达上述步骤可以合成一个多头自注意力模块，针对视频，利用多头自注意力模块可以直接获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。

步骤三，利用步骤一获取的问题语句的语义表达与步骤二获取的自注意力视频语义表达，设计一种多步骤跨模型交互模块用来获取视频帧的跨模型语义表达，所述多步骤跨模型交互模块的设计包括以下步骤：

利用步骤一获取的问题语句的语义表达与步骤二获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M，

其中，M_ij代表矩阵M中的第i行第j列元素，exp(·)代表以自然常数e为底的指数函数计算，代表视频第i帧的聚合问题表达；

步骤四，将步骤三获得的视频帧的跨模型语义表达f＝(f₁,f₂,...f_i,...f_n)输入到双向GRU中，获得视频帧的最终语义表达对视频每个帧，利用可变长度窗口预定义一组预定义候选片段集合其中C_i代表视频第i帧的预定义候选片段集合，代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界，w_j代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度，k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目；利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数，

L_ij＝(1-IoU_ij)·log(1-cs_ij)+IoU_ij·log(cs_ij)

其中，N代表集合C_h中所有预定义候选片段的数目，R(·)代表平滑L1计算，δ_s代表集合C_h中第i个预定义候选片段的起点实际偏离值，δ_e代表集合C_h中第i个预定义候选片段的终点实际偏离值，代表集合C_h中第i个预定义候选片段的起点预测偏离值，代表集合C_h中第i个预定义候选片段的终点预测偏离值，i＝(1,2,...,N)；

L＝L_align+α·L_reg

步骤五，利用步骤四获得的跨模型交互网络的损失函数，对跨模型交互网络进行训练，获得训练后的跨模型交互网络。利用训练后的跨模型交互网络，输入视频与问题，获得视频中所有预定义候选片段的置信度分数，将置信度分数最高的视频片段抽取出来，作为对视频进行以问题为基础的片段抽取的结果。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在ActivityCaption数据集与TACoS数据集上进行实验。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了R@1IoU＝0.3，R@1IoU＝0.5,R@1IoU＝0.7,R@5IoU＝0.3,R@5IoU＝0.5,R@5IoU＝0.7六种评价标准来对于本发明的效果进行评价，这六种评价标准分别反映了在IoU取0.3、0.5、0.7时，若分别选择最佳1个、最佳5个预定义候选片段，则有多少百分比的大于设定的IoU值的候选片段被挑出。按照具体实施方式中描述的步骤，所得的实验结果如表1与表2所示，本方法表示为CMIN。

表1为本发明在ActivityCaption数据集上针对R@1IoU＝0.3，R@1IoU＝0.5，R@1IoU＝0.7，R@5IoU＝0.3，R@5IoU＝0.5，R@5IoU＝0.7六种评价标准的测试结果。表2为本发明在TACoS数据集上针对R@1IoU＝0.3，R@1IoU＝0.5，R@1IoU＝0.7，R@5IoU＝0.3，R@5IoU＝0.5，R@5IoU＝0.7六种评价标准的测试结果。

表1与表2的测试结果反映出，本发明可以有效地解决以问题为基础的视频片段抽取任务，抽取出符合要求的视频片段。

表1

表2

Claims

1.一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于包括如下步骤：

1)针对问题语句，利用语义图像卷积网络获取问题语句的语义表达；

2)针对视频，获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达；

3)利用步骤1)获取的问题语句的语义表达与步骤2)获取的自注意力视频语义表达，获取视频帧的跨模型语义表达；

4)利用步骤3)获得的视频帧的跨模型语义表达，计算得到跨模型交互网络的损失函数；

5)利用步骤4)获得的跨模型交互网络的损失函数，对跨模型交互网络进行训练，利用训练后的跨模型交互网络，对视频进行以问题为基础的片段抽取。

2.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于所述的步骤1)具体为：

3.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于所述的步骤2)具体为：

V^s＝MultiHead(V,V,V)+V

MultiHead(V,V,V)＝W^OConcat(head₁,head₂,...,head_H)

head_i＝Attention(W_i ¹V,W_i ²V,W_i ³V)

4.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于所述的步骤3)具体为：

利用步骤1)获取的问题语句的语义表达与步骤2)获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M，

其中M_ij代表矩阵M中的第i行第j列元素，W₁ ^m、W₂ ^m为可训练的参数矩阵，b^m为可训练的偏置向量，w^T为行向量，tanh(·)代表双曲正切函数计算；

5.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于所述的步骤4)具体为：

将步骤3)获得的视频帧的跨模型语义表达f＝(f₁,f₂,...f_i,...f_n)输入到双向GRU中，获得视频帧的最终语义表达对视频每个帧，利用可变长度窗口预定义一组预定义候选片段集合其中C_i代表视频第i帧的预定义候选片段集合，代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界，w_j代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度，k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目；利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数，

L_ij＝(1-IoU_ij)·log(1-cs_ij)+IoU_ij·log(cs_ij)

L＝L_align+α·L_reg

6.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法，其特征在于所述的步骤5)具体为：

利用步骤4)获得的跨模型交互网络的损失函数，对跨模型交互网络进行训练，获得训练后的跨模型交互网络；利用训练后的跨模型交互网络，输入视频与问题，获得视频中所有预定义候选片段的置信度分数，将置信度分数最高的视频片段抽取出来，作为对视频进行以问题为基础的片段抽取的结果。