CN110377711A

CN110377711A - 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Info

Publication number: CN110377711A
Application number: CN201910585462.7A
Authority: CN
Inventors: 赵洲; 孟令涛; 张竹; 袁晶; 怀宝兴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-25
Anticipated expiration: 2039-07-01
Also published as: CN110377711B

Abstract

本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤：1)针对视频与问题，分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达，计算损失函数并训练模型，利用训练后的分层卷积自注意力网络，对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案，本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。

Description

一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

技术领域

本发明涉及以开放式长视频问答任务，尤其涉及一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。

背景技术

当下，开放式长视频问答任务成为一项重要的服务，但是目前已有该项服务的效果并不是很好。

现有的技术主要是利用多模型卷积编解码器网络解决短视频问答任务。由于缺乏对长范围依赖的建模并且计算开销过大，这种方法对长视频问答任务不适用。为了克服该缺陷，本方法将利用分层卷积自注意力网络解决开放式长视频问答任务。

本发明将利用一个分层卷积自注意力编码器对长视频内容进行建模，获取长视频内容的分层结构，并获取含有问题信息的视频上下文长范围依赖信息。之后本发明利用多范围注意力解码器合并多层视频表达来生成答案。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中缺乏对长范围依赖的建模并且计算开销过大的问题，本发明提供一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。本发明所采用的具体技术方案是：

一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法，包含如下步骤：

1、针对视频与问题语句，利用分层卷积自注意力编码器网络获取多层视频语义表达；

2、利用步骤1获取的多层视频语义表达，计算GRU注意力解码器输出向量，进一步得到分层卷积自注意力网络损失函数；

3、利用步骤2获取的分层卷积自注意力网络损失函数，对分层卷积自注意力网络进行训练，利用训练后的分层卷积自注意力网络，输入视频与对应问题语句，对开放式长视频问答任务进行回答语句生成。

进一步的，所述的步骤1具体为：

1.1针对视频，利用提前训练好的3D-Conv网络结合线性映射与位置编码器，获得视频帧表达v＝(v₁,v₂,...,v_n)，其中v_i代表视频中第i帧的帧表达向量，i＝(1,2,...,n)，n代表视频中的帧数；

1.2针对问题语句，利用提前训练好的word2vec模型获取问题语句的单词表达q＝(q₁,q₂,...q_m)，其中q_i代表问题语句中第i个单词的word2vec特征表达向量，m代表问题中的单词数；

1.3将问题语句的单词表达q＝(q₁,q₂,...q_m)输入到双向GRU网络中，按照如下公式获取问题语句的上下文单词表达与全局问题表达h^Q，

其中代表问题语句中第i个单词的上下文单词表达，i＝(1,2,...,m)，m代表问题中的单词数。与分别代表正向与反向GRU计算，代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接，获得问题语句中第i个单词的上下文单词表达代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接，获得全局问题表达h^Q；

1.4将所得到的视频帧表达v＝(v₁,v₂,...,v_n)、输入到L层卷积自注意力编码层中，所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层，每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元；获得L层卷积自注意力编码层的输出向量(h¹,h²,...,h^L)，将L层卷积自注意力编码层的输出向量堆叠起来，获得多层视频语义表达(h¹,h²,...,h^L)。

进一步的，所述的步骤1.4具体为：

1.4.1第1层卷积自注意力编码层的输入为视频帧表达v＝(v₁,v₂,...,v_n)，第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列其中代表第l-1层卷积自注意力编码层的输出序列中的第i个向量，l＝(1,2,...,L)，n_l-1代表第l-1层卷积自注意力编码层的输出序列长度；

1.4.2根据得到第l层卷积自注意力编码层中第一卷积单元的输出

Y＝[A；B]

其中，i＝(1,2,...,n_l-1)，Y＝[A；B]代表将2d维的向量Y拆解为两个d维向量A与B，d代表第l-1层卷积自注意力编码层的输出序列中向量的维度，j＝(1,2,...,n_l-1)。W^l代表可训练的权重矩阵，b^l代表可训练的参数向量，代表按元素相乘计算；

1.4.3将第l层卷积自注意力编码层中第一个卷积单元的输出输入到第l层卷积自注意力编码层中第二个卷积单元，按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二卷积单元的输出

1.4.4将第l层卷积自注意力编码层中第二卷积单元的输出分割为n_l个片段，每个片段所含元素数目为H，n_l-1＝H×n_l；将n_l个片段输入到第l层卷积自注意力编码层的注意力分割单元中，获得第l层卷积自注意力编码层中视频片段级别的表达对n_l个片段中第i个片段，按照如下公式计算得到第i个片段的视频片段级别的表达

其中，i＝(1,2,...,n_l)，softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，W_s ¹、W_s ²代表可训练的权重矩阵，b_s为可训练的偏置向量，代表可训练的权重向量的转置；

1.4.5利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元，按照如下方法得到第l层卷积自注意力编码层的输出序列

1.4.5.1利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M，

其中，M_ij代表视频到问题矩阵M的第i行第j列元素，i＝(1,2,...,n_l)，j＝(1,2,...,m)，tanh()代表双曲正切函数计算，代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的权重向量的转置。

1.4.5.2利用得到的视频到问题矩阵M，按照如下公式计算得到第l层卷积自注意力编码层的输出序列中第i个向量，

D＝M·M^T

其中，i＝(1,2,...,n_l)，矩阵D代表视频自注意力矩阵，代表对进行第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作，softmax(·)代表softmax函数计算。

则按照如上方法，可以获得第l层卷积自注意力编码层的输出序列l＝(1,2,...,L)，将L层卷积自注意力编码层的输出序列堆叠起来，可以获得多层视频语义表达(h¹,h²,...,h^L)。

进一步的，所述的步骤2具体为：

2.1利用步骤1获得的多层视频语义表达(h¹,h²,...,h^L)，输入到GRU注意力解码器，循环生成第t步的解码器输出向量计算公式如下，

其中，t＝(1,2,...,r)，r代表回答语句中的单词数；为GRU注意力解码器生成的第t-1步的解码器输出向量，x_t为第t步的解码器输入向量，x_t计算公式如下，

其中，w_t代表第t步的解码器输入单词嵌入向量，h^Q代表步骤1获得的全局问题表达，代表第t步对应的多范围视频表达，计算方法如下，

针对步骤1获得的多层视频语义表达(h¹,h²,...,h^L)，按照如下公式计算第t步对应的多范围视频表达

其中，softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，代表可训练的权重矩阵，b_g代表可训练的偏置向量，代表可训练的权重向量的转置，代表第t-1步的解码器输出向量，h^Q代表步骤1获得的全局问题表达，代表视频语义表达(h¹,h²,...,h^L)中的第l层卷积自注意力编码层的输出序列中第i维向量，l＝(1,2,...,n_l)，K代表提前设定好的注意力范围数。

2.2利用计算得到的GRU注意力解码器的第t步输出向量按照如下公式计算得到分层卷积自注意力网络损失函数L_ML，

其中，softmax(·)代表softmax函数计算，log(·)代表自然底数对数计算，W_a代表可训练的权重矩阵，b_a代表可训练的偏置向量。

本发明的有益效果为：

(1)本发明对开放式长视频问答任务，利用分层卷积自注意力编码器网络，有效获取了长视频内容的分层结构，并且获取了含有问题信息的视频上下文长范围依赖信息；

(2)本发明利用一个多范围GRU注意力解码器，获取了视频中多层语义信息的合成，防止仅利用最上层视频语义信息导致的信息丢失，更有效地获得视频与问题相关的信息；

(3)本发明可以更有效地提取出视频中与问题语句相关的部分，并生成更符合问题需求的答案；在利用ActivityCaption数据集改造的开放式长视频问答任务数据集上进行实验，实验发现，本发明可以取得较好的效果。

附图说明

图1是本发明使用的用来解决开放式长视频问答任务的分层卷积自注意力网络模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，图1中a)代表利用L层卷积自注意力编码层生成多层视频语义表达，图1中b)代表利用解码器计算损失函数并生成答案。

本发明一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法包括如下步骤：

步骤一，针对视频与问题语句，利用分层卷积自注意力编码器网络获取多层视频语义表达，其具体步骤为：

针对视频，利用提前训练好的3D-Conv网络结合线性映射与位置编码器，获得视频帧表达v＝(v₁,v₂,...,v_n)。其中v_i代表视频中第i帧的帧表达向量，i＝(1,2,...,n)，n代表视频中的帧数。

针对问题语句，利用提前训练好的word2vec模型获取问题语句的单词表达q＝(q₁,q₂,...q_m)，其中q_i代表问题语句中第i个单词的word2vec特征表达向量，m代表问题语句中的单词数。将问题语句的单词表达q＝(q₁,q₂,...q_m)输入到双向GRU网络中，按照如下公式获取问题语句的上下文单词表达与全局问题表达h^Q，

其中代表问题语句中第i个单词的上下文单词表达，i＝(1,2,...,m)，m代表问题语句中的单词数。与分别代表正向与反向GRU计算，代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接，获得问题语句中第i个单词的上下文单词表达代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接，获得全局问题表达h^Q。

之后将所得到的视频帧表达v＝(v₁,v₂,...,v_n)输入到L层卷积自注意力编码层中，获得L层卷积自注意力编码层的输出向量(h¹,h²,...,h^L)，将L层卷积自注意力编码层的输出向量堆叠起来，获得多层视频语义表达(h¹,h²,...,h^L)。

第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列l＝(1,2,...,L)，其中第1层卷积自注意力编码层的输入为视频帧表达v＝(v₁,v₂,...,v_n)，n_l-1代表第l-1层卷积自注意力编码层的输出序列长度。将按照如下公式计算，得到第l层卷积自注意力编码层中第一个卷积单元的输出

Y＝[A；B]

其中，i＝(1,2,...,n_l-1)，Y＝[A；B]代表将2d维的向量Y拆解为两个d维向量A与B，d代表第l-1层卷积自注意力编码层的输出序列中向量的维度，j＝(1,2,...,n_l-1)。W^l代表可训练的权重矩阵，b^l代表可训练的参数向量，代表按元素相乘计算。

将第l层卷积自注意力编码层中第一个卷积单元的输出输入到第l层卷积自注意力编码层中第二个卷积单元，按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二个卷积单元的输出

将第l层卷积自注意力编码层中第二个卷积单元的输出分割为n_l个片段，每个片段所含元素数目为H，n_l-1＝H×n_l。将n_l个片段输入到第l层卷积自注意力编码层的注意力分割单元中，获得第l层卷积自注意力编码层中视频片段级别的表达对n_l个片段中第i个片段，按照如下公式计算得到第i个片段的视频片段级别的表达

其中，i＝(1,2,...,n_l)，softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，W_s ¹、W_s ²代表可训练的权重矩阵，b_s为可训练的偏置向量，代表可训练的权重向量的转置。

利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元，按照如下方法得到第l层卷积自注意力编码层的输出序列

利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M，

其中，M_ij代表视频到问题矩阵M的第i行第j列元素，i＝(1,2,...,n_l)，j＝(1,2,...,m)，tanh(·)代表双曲正切函数计算，代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的权重向量的转置。

利用得到的视频到问题矩阵M，按照如下公式计算得到第l层卷积自注意力编码层的输出序列中第i个向量，

D＝M·M^T

其中，i＝(1,2,...,n_l)，矩阵D代表视频自注意力矩阵，代表对第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作，softmax(·)代表softmax函数计算。

步骤二，利用步骤一获取的多层视频语义表达，计算得到分层卷积自注意力网络损失函数，其具体步骤为：

将步骤一获得的多层视频语义表达(h¹,h²,...,h^L)输入到GRU注意力解码器，循环生成第t步的解码器输出向量计算公式如下，

其中，为GRU注意力解码器生成的第t-1步的解码器输出向量，x_t为第t步的解码器输入向量，x_t计算公式如下，

其中，w_t代表第t步的解码器输入单词嵌入向量，h^Q代表步骤一获得的全局问题表达，代表第t步对应的多范围视频表达，计算方法如下。

针对步骤一获得的多层视频语义表达(h¹,h²,...,h^L)，按照如下公式计算第t步对应的多范围视频表达

其中，t＝(1,2,...,r)，r代表回答语句中的单词数；softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，代表可训练的权重矩阵，b_g代表可训练的偏置向量，代表可训练的权重向量的转置，代表第t-1步的解码器输出向量，h^Q代表步骤一获得的全局问题表达，代表视频语义表达(h¹,h²,...,h^L)中的第l层卷积自注意力编码层的输出序列中第i维向量，l＝(1,2,...,n_l)，K代表提前设定好的注意力范围数。

利用计算得到的第t步的解码器输出向量按照如下公式计算得到分层卷积自注意力网络损失函数L_ML，

步骤三，利用步骤二获取的分层卷积自注意力网络损失函数，对分层卷积自注意力网络进行训练，利用训练后的分层卷积自注意力网络，对开放式长视频问答任务，输入视频与对应问题，生成视频问答任务答案。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在ActivityCaption数据集上进行实验。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了BLEU-1，[email protected],[email protected]三种评价标准来对于本发明的效果进行评价，BLEU-1评价标准反映了生成的回答语句的单词匹配程度，[email protected]与[email protected]评价标准反映了生成的回答语句的单词级别的歧义程度。按照具体实施方式中描述的步骤，所得的实验结果如表1所示，本方法表示为HCSA。

表1的测试结果反映出，本发明可以有效地解决放式长视频问答任务，生成符合要求的回答语句。

表1

Method	BLEU-1	[email protected]	[email protected]
				HCSA	28.83	36.90	61.74

Claims

1.一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于包括如下步骤：

1)针对视频与问题语句，利用分层卷积自注意力编码器网络获取多层视频语义表达；

2)利用步骤1)获取的多层视频语义表达，计算GRU注意力解码器输出向量，进一步得到分层卷积自注意力网络损失函数；

3)利用步骤2)得到的分层卷积自注意力网络损失函数，对分层卷积自注意力网络进行训练；输入视频与对应问题语句，利用训练后的分层卷积自注意力网络对开放式长视频问答任务进行回答语句生成。

2.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于所述的步骤1)具体为：

1.1)针对视频，利用提前训练好的3D-Conv网络结合线性映射与位置编码器，获得视频帧表达v＝(v₁,v₂,...,v_n)，其中v_i代表视频中第i帧的帧表达向量，n代表视频中的帧数；

1.2)针对问题语句，利用提前训练好的word2vec模型获取问题语句的单词表达q＝(q₁,q₂,...q_m)，其中q_i代表问题语句中第i个单词的word2vec特征表达向量，m代表问题语句中的单词数；

1.3)将问题语句的单词表达q＝(q₁,q₂,...q_m)输入到双向GRU网络中，按照如下公式获取问题语句的上下文单词表达与全局问题表达h^Q，

其中代表问题语句中第i个单词的上下文单词表达，i＝(1,2,...,m)；与分别代表正向与反向GRU计算；代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接，获得问题语句中第i个单词的上下文单词表达代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接，获得全局问题表达h^Q；

1.4)将步骤1.1)得到的视频帧表达v＝(v₁,v₂,...,v_n)输入到L层卷积自注意力编码层中，所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层，每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元；获得L层卷积自注意力编码层的输出向量(h¹,h²,...,h^L)，将L层卷积自注意力编码层的输出向量堆叠起来，进一步获得多层视频语义表达(h¹,h²,...,h^L)。

3.根据权利要求2所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于所述步骤1.4)具体为：

1.4.1)第1层卷积自注意力编码层的输入为步骤1.1)得到的视频帧表达v＝(v₁,v₂,...,v_n)，第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列代表第l-1层卷积自注意力编码层的输出序列中的第i个向量，n_l-1代表第l-1层卷积自注意力编码层的输出序列长度；

1.4.2)计算第l层卷积自注意力编码层中的第一卷积单元的输出

Y＝[A；B]

其中，i＝(1,2,...,n_l-1)，l＝(1,2,...,L)，Y＝[A；B]代表将2d维的向量Y拆解为两个d维向量A与B，d代表第l-1层卷积自注意力编码层的输出序列中向量的维度，j＝(1,2,...,n_l-1)；W^l代表可训练的权重矩阵，b^l代表可训练的参数向量，代表按元素相乘计算；

1.4.3)将第l层卷积自注意力编码层中的第一卷积单元的输出输入到第l层卷积自注意力编码层中的第二卷积单元，按照步骤1.4.2)中的计算方法获得第l层卷积自注意力编码层中的第二卷积单元的输出

1.4.4)将第l层卷积自注意力编码层中的第二卷积单元的输出分割为n_l个片段，每个片段所含元素数目为H，n_l-1＝H×n_l；将n_l个片段输入到第l层卷积自注意力编码层中的注意力分割单元中，获得第l层卷积自注意力编码层中视频片段级别的表达

其中，i＝(1,2,...,n_l)，代表第i个片段的视频片段级别的表达，softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，W_s ¹、W_s ²代表可训练的权重矩阵，b_s为可训练的偏置向量，代表可训练的权重向量的转置；

1.4.5)将步骤1.4.4)获得的第l层卷积自注意力编码层中视频片段级别的表达与步骤1.3)获得的问题语句的上下文单词表达输入到第l层卷积自注意力编码层中的带有问题信息的自注意力单元，得到第l层卷积自注意力编码层的输出序列具体步骤如下：

1.4.5.1)利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M，

其中，M_ij代表视频到问题矩阵M的第i行第j列元素，i＝(1,2,...,n_l)，j＝(1,2,...,m)，代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的权重向量的转置；

1.4.5.2)根据视频到问题矩阵M，得到第l层卷积自注意力编码层的输出序列将L层卷积自注意力编码层的输出序列堆叠起来，进一步获得多层视频语义表达(h¹,h²,...,h^L)，

D＝M·M^T

其中，i＝(1,2,...,n_l)，矩阵D代表视频自注意力矩阵，代表对进行第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作。

4.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于所述的步骤2)具体为：

2.1)将步骤1)获得的多层视频语义表达(h¹,h²,...,h^L)输入到GRU注意力解码器，得到第t步的解码器输出向量

其中，t＝(1,2,...,r)，r代表回答语句中的单词数；x_t为第t步的解码器输入向量，计算公式如下：

其中，w_t代表第t步的解码器输入单词嵌入向量，代表第t步对应的多范围视频表达，K代表提前设定好的注意力范围数，代表可训练的权重矩阵，b_g代表可训练的偏置向量，代表可训练的权重向量的转置；

2.2)根据得到的第t步的解码器输出向量按照如下公式计算得到分层卷积自注意力网络损失函数L_ML，

其中，log(·)代表自然底数对数计算，W_a代表可训练的权重矩阵，b_a代表可训练的偏置向量。