CN109857909B

CN109857909B - 多粒度卷积自注意力上下文网络解决视频对话任务的方法

Info

Publication number: CN109857909B
Application number: CN201910097296.6A
Authority: CN
Inventors: 赵洲; 张易诚
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2019-01-22
Filing date: 2019-01-31
Publication date: 2020-11-20
Anticipated expiration: 2039-01-31
Also published as: CN109857909A

Abstract

本发明公开了一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。主要包括如下步骤：1)针对于所给视频、对话历史及当轮问题，获取含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达。2)利用得到的含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达，获取当轮回答。相比于一般的视频问答解决方案，本发明利用了多粒度卷积自注意力上下文网络模型，能够更好地克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题。本发明在视频对话任务中所取得的效果相比于传统的方法更好。

Description

多粒度卷积自注意力上下文网络解决视频对话任务的方法

技术领域

本发明涉及视频对话任务，尤其涉及一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。

背景技术

视频对话任务可以被看做为视觉问答任务的拓展，在该任务中需要对话***可以针对于某个特定视频的内容，持续与人类进行自然语言形式的对话。与以往的视觉问答任务不同的是，视觉问答任务中的各个问题为相互独立的问题，而视频对话任务中对话***需要回答的问题与之前的对话上下文有关。

目前大多数的视觉问答任务只关注处理静态的图像信息，然而视频是我们日常生活中常见的信息载体形式，所以将视觉问答任务拓展到视频对话任务十分必要。准确地说，视频对话任务是针对于给定的视频、对话历史和人类用户的每一轮的对话问题，对话***可以将视频信息与对话历史中的上下文信息结合起来，回答人类用户的对话问题。

虽然视觉问答任务与视频对话任务很相似，但是由于视频中存在的隐含时间结构信息，并且视觉问答任务解决方法缺乏了对于关键的对话上下文的处理，目前的视觉问答任务的方法不能被直接运用于解决视频对话任务。此外在对话上下文处理时，对话上下文中的序列化与各轮对话相互依赖特性的使用也十分关键。

目前，对于序列化形式的数据，一般采用循环神经网络的处理方式。并且为了解决基础循环神经网络中存在的梯度消失问题，利用长短时记忆神经网络来提高对于序列化形式数据的处理效果。但是长短时记忆神经网络仍然会存在消耗时间过长的问题。为了弥补此问题，本发明使用多粒度卷积神经网络来进行序列化形式数据的处理。同时本发明利用自注意力机制来提高对话***对于对话上下文的表达效果。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题，本发明提供一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。本发明所采用的具体技术方案是：

利用多粒度卷积自注意力上下文网络解决视频对话任务的方法，包含如下步骤：

1.设计一种多粒度卷积自注意力处理机制来对于视频、对话信息进行编码处理。

2.利用步骤1中设计的多粒度卷积自注意力处理机制，设计一种分层对话历史编码器，利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达。

3.利用步骤1中设计的多粒度卷积自注意力处理机制，设计一种视频编码器，利用该视频编码器获得含有对话上下文信息的视频表达。

4.利用步骤2获得的含有对话上下文信息的当轮问题表达与步骤3获得的含有对话上下文信息的视频表达，设计一种答案解码器，利用该答案解码器获得当轮问题答案。

5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练，得到最终的多粒度卷积自注意力上下文网络，利用该多粒度卷积自注意力上下文网络针对于特定视频，与用户进行对话。

上述步骤可具体采用如下实现方式：

1.设计一种多粒度卷积自注意力处理机制，该机制可以在对于视频、对话信息进行编码处理时，加入时间信息。

多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X＝(x₁，x₂，...，x_n)，分割为k个长度为l的片段X＝(X¹，X²，...，X^k)，其中X¹＝(x₁，x₂，...，x_l)，X²＝(x_l+1，x_l+2，...，x_2l)，...，Xⁱ＝(x_l×(i-1)+1，x_l×(i-1)+2，...，x_l×i)，i＝1，2，...，k，n＝k×l；

将分割后的每个分段Xⁱ按照如下公式计算获得每个分段的局部互动信息表达：

Yⁱ＝Attention(Xⁱ，Xⁱ，Xⁱ)，

其中i＝1，2，...，k，d_x为片段Xⁱ的序列元素维度，Yⁱ为片段Xⁱ对应的局部互动信息表达；

对于k个长度为l的片段X＝(X¹，X²，...，X^k)，利用上述方法获得对应的局部互动信息表达Y＝(Y¹，Y²，...，Y^k)，其中Yⁱ＝(y_l×(i-1)+1，y_l×(i-1)+2，...，y_l×i)，i＝1，2，...，k；

将获得的局部互动信息表达Y＝(Y¹，Y²，...，Y^k)输入到一个卷积核维度与卷积步长均为l的卷积层，获得压缩序列表达P＝(p₁，p₂，...，p_k)；将获得的压缩序列表达P＝(p₁，p₂，...，p_k)按照如下公式计算获得含有自注意力互动信息的序列表达P′＝(p₁′，p₂′，...，p_k′)，

P′＝Attention(P，P，P)，

其中d_p为压缩序列表达P的维度；

将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′＝(z₁′，z₂′，...，z_k′)，

其中，σ()代表sigmoid函数，

代表以元素方式相乘，

代表权重矩阵，b_g代表偏置向量，S₁代表门比例值；

将获得的混合输出序列表达Z′＝(z₁，z₂，...，z_k)复制l次，获得新的混合输出序列表达Z＝(z₁，z₂，...，z_n)，其中n＝k×l；

将获得的新的混合输出序列表达Z＝(z₁，z₂，...，z_n)、局部互动信息表达Y＝(Y¹，Y²，...，Y^k)与输入的视频帧特征序列或对话单词映射特征序列X＝(x₁，x₂，...，x_n)，按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O₁，

其中，σ()代表sigmoid函数，

代表以元素方式相乘，tanh()代表双曲正切函数，

W_x代表权重矩阵，b_f、b_s代表偏置向量，[X；Y；Z]代表对于新的混合输出序列表达Z＝(z₁，z₂，...，z_n)、局部互动信息表达Y＝(Y¹，Y²，...，Y^k)与输入的视频帧特征序列或对话单词映射特征序列X＝(x₁，x₂，...，x_n)进行连接操作，S₂代表门比例值。

2.设计一种分层对话历史编码器，该分层对话历史编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制，获取含有对话历史信息的问题的表达。

对于对话历史各轮对话表达C＝(C₁，C₂，...，C_N)，其中第i轮对话表达C_i由第i轮的问题表达q_i与第i轮的答案表达a_i组成，将每一轮的问题表达与答案表达，利用步骤1)中所设计的多粒度卷积自注意力处理机制，获取对应的多粒度卷积自注意力处理机制输出序列表达；将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达，利用如下公式，计算得到对应的问题与答案的自注意力句子表达r_i ^q、

f(x_i)＝W₁σ(W₂x_i+b₁)+b₂

其中，x_i代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素，σ()代表sigmoid函数，

代表以元素方式相乘，W₁、W₂代表权重矩阵，b₁、b₂代表偏置向量，n代表输入的第i轮的问题表达q_i或第i轮的答案表达的长度，O代表所得到第i轮问答对应的问题的自注意力表达r_i ^q，或者，第i轮问答对应的答案的自注意力表达r_i ^q；

将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达r_i ^q、

利用如下公式，计算得到第i轮对话的混合表达c_i，

其中，tanh()代表双曲正切函数，

代表权重矩阵；

对于得到的每一轮对话的混合表达c＝(c₁，c₂，...，c_N)，利用掩饰的多粒度卷积自注意力处理机制，获得相互作用的对话上下文表达u＝(u₁，u₂，...，u_N)；对于输入的新问题表达q，利用如下公式计算最终的含有对话历史信息的问题的表达q^u，

q^u＝q+u^q

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qu代表偏置向量，

代表参数向量的转置，exp()代表以自然底数e为底的指数运算函数，u_i代表第i轮对话对应的对话上下文表达。

3.设计一种含有对话上下文信息的视频编码器，该含有对话上下文信息的视频编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制，获取含有对话上下文信息的视频编码。

对于所给的视频，利用提前训练好的VGG网络获取视频的外表特征表达

利用提前训练好的3D-卷积网络获取视频的动作特征表达

将获得的视频外表特征表达

与视频动作特征表达

分别利用步骤1中设计的多粒度卷积自注意力处理机制，获取对应的视频互相作用的外表特征表达

与视频互相作用的动作特征表达

对于得到的视频互相作用的外表特征表达

与步骤2)中得到的含有对话历史信息的问题的表达q^u，利用如下公式计算含有上下文信息的视频外表特征表达v^qf，

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qf代表偏置向量，

代表参数向量的转置，exp()代表以自然底数e为底的指数运算函数；

对于得到的视频互相作用的动作特征表达

与步骤2)中得到的含有对话历史信息的问题的表达q^u，利用如下公式计算含有上下文信息的视频动作特征表达v^qs，

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qs代表偏置向量，

对于得到的含有上下文信息的视频外表特征表达v^qf与含有上下文信息的视频动作特征表达v^qs，利用如下公式计算得到含有上下文信息的视频表达

其中，

代表以元素方式相乘；

对于得到的含有上下文信息的视频表达

与步骤2中得到的含有对话历史信息的问题的表达q^u，利用如下公式计算得到含有对话上下文信息的视频编码f_quv，

其中，Concat()代表连接操作，g()代表双曲正切激活函数。

4.设计一种含有答案解码器，该答案解码器利用步骤3得到的含有对话上下文信息的视频编码f_quv，从预先存储的候选答案语料中选择对于用户该轮问题的最佳回复。

对于预先存储的候选答案语料中的所有答案，利用步骤1中设计的多粒度卷积自注意力处理机制，获取候选答案表达矩阵

其中

代表候选答案语料中的第i个答案的语义表达，T³代表候选答案语料中的答案数目；

对于得到的候选答案表达矩阵A与步骤3得到的含有对话上下文信息的视频编码f_quv，利用如下公式计算得到候选答案对应的概率分布p_a，

其中，softmax()代表softmax运算函数；之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复。

5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练，得到最终的多粒度卷积自注意力上下文网络，利用该网络可以针对于特定视频，与用户进行对话。

附图说明

图1是本发明用于解决视频对话任务的多粒度卷积自注意力上下文网络整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明多粒度卷积自注意力上下文网络解决视频对话任务的方法包括如下步骤：

1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理；

2)利用步骤1)中设计的多粒度卷积自注意力处理机制，设计一种分层对话历史编码器，利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达；

3)利用步骤1)中设计的多粒度卷积自注意力处理机制，设计一种视频编码器，利用该视频编码器获得含有对话上下文信息的视频表达；

4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达，设计一种答案解码器，利用该答案解码器获得当轮问题答案；

5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练，得到最终的多粒度卷积自注意力上下文网络，利用该多粒度卷积自注意力上下文网络针对于特定视频，与用户进行对话。

所述步骤1)，其具体步骤为：

Yⁱ＝Attention(Xⁱ，Xⁱ，Xⁱ)，

P′＝Attention(P，P，P)，

其中d_p为压缩序列表达P的维度；

其中，σ()代表sigmoid函数，

代表以元素方式相乘，

代表权重矩阵，b_g代表偏置向量，S₁代表门比例值；

其中，σ()代表sigmoid函数，

代表以元素方式相乘，tanh()代表双曲正切函数，

W_x代表权重矩阵，b_f、b_s代表偏置向量，[X；Y；Z]代表对于新的混合输出序列表达Z＝(z₁，z₂，...，z_n)、局部互动信息表达Y＝(Y¹，Y²，...，Y^k)与输入的视频帧特征序列或对话单词映射特征序列X＝(x₁，x₂，...，x_n)进行连接操作，S₂代表门比例值；

所述步骤2)，其具体步骤为：

f(x_i)＝W₁σ(W₂x_i+b₁)+b₂

利用如下公式，计算得到第i轮对话的混合表达c_i，

其中，tanh()代表双曲正切函数，

代表权重矩阵；

q^u＝q+u^q

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qu代表偏置向量，

代表参数向量的转置，exp()代表以自然底数e为底的指数运算函数，u_i代表第i轮对话对应的对话上下文表达；

所述步骤3)，其具体步骤为：

利用提前训练好的3D-卷积网络获取视频的动作特征表达

将获得的视频外表特征表达

与视频动作特征表达

与视频互相作用的动作特征表达

对于得到的视频互相作用的外表特征表达

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qf代表偏置向量，

对于得到的视频互相作用的动作特征表达

其中，tanh()代表双曲正切函数，

代表权重矩阵，b_qs代表偏置向量，

其中，

代表以元素方式相乘；

对于得到的含有上下文信息的视频表达

其中，Concat()代表连接操作，g()代表双曲正切激活函数；

所述的步骤4)，其具体步骤为：

对于预先存储的候选答案语料中的所有答案，利用步骤1)中设计的多粒度卷积自注意力处理机制，获取答案表达矩阵

其中

对于得到的候选答案表达矩阵A与步骤3)得到的含有对话上下文信息的视频编码f_quv，利用如下公式计算得到候选答案对应的概率分布p_a，

其中，softmax()代表softmax运算函数；之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复；

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在构建的YouTubeClips与TACoS-MultiLevel实验数据集上进行实验，所使用的YouTubeClips数据集中共包括6515条视频数据、66806个对话问答对数据；TACoS-MultiLevel数据集中共包括9935条视频数据、37228个对话问答对数据。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了平均倒数排序(MRR)，精确度@1(Precision@1)，精确度@5(Precision@5)，平均排序(MeanRank)这四种评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示，本方法表示为MGCSACN：

方法名	平均倒数排序	精确度@1	精确度@5	平均排序
					MGCSACN	0.481	0.344	0.687	6.969

表1本发明针对于YouTubeClips数据集的测试结果

方法名	平均倒数排序	精确度@1	精确度@5	平均排序
					MGCSACN	0.542	0.437	0.717	5.875

表2本发明针对于TACoS-MultiLevel数据集的测试结果。

Claims

1.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法，其特征在于包括如下步骤：

1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理；其中多粒度卷积自注意力上下文网络对输入的视频帧特征序列或对话单词映射特征序列进行分割成分段，计算得到每个分段的局部互动信息表达，将局部互动信息表达输入卷积层得到压缩序列表达，计算得到含有自注意力互动信息的序列表达，利用压缩序列表达和含有自注意力互动信息的序列表达计算得到混合输出序列，将获得的混合输出序列表达复制获得新的混合输出序列表达，计算得到最终的多粒度卷积自注意力处理机制输出序列表达；

对于对话历史各轮对话表达利用步骤1)的多粒度卷积自注意力处理机制得到对应的多粒度卷积自注意力处理机制输出序列表达，计算获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达得到对应的问题与答案的自注意力句子表达，再计算得到对应对话的混合表达，利用掩饰的多粒度卷积自注意力处理机制，获得相互作用的对话上下文表达；

3)利用步骤1)中设计的多粒度卷积自注意力处理机制，设计一种视频编码器，利用该视频编码器获得含有对话上下文信息的视频表达；处理所给的视频得到视频外表特征表达与视频动作特征表达，分别利用多粒度卷积自注意力处理机制，获取对应的视频互相作用的外表特征表达，计算含有上下文信息的视频外表特征表达，计算含有上下文信息的视频外表特征表达，对于得到的视频互相作用的动作特征表达与步骤2)中得到的含有对话历史信息的问题的表达，计算含有上下文信息的视频动作特征表达，对于得到的含有上下文信息的视频外表特征表达与含有上下文信息的视频动作特征表达，计算得到含有上下文信息的视频表达，对于得到的含有上下文信息的视频表达与步骤2中得到的含有对话历史信息的问题的表达，计算得到含有对话上下文信息的视频编码；

其中对于预先存储的候选答案语料中的所有答案，利用多粒度卷积自注意力处理机制，获取候选答案表达矩阵，对于得到的候选答案表达矩阵与步骤3)得到的含有对话上下文信息的视频编码，计算得到候选答案对应的概率分布，进而得到当轮问题答案；

2.根据权利要求1所述的利用多粒度卷积自注意力上下文网络解决视频对话任务的方法，其特征在于，所述步骤1)，具体为：

Yⁱ＝Attention(Xⁱ，Xⁱ，Xⁱ)，

将获得的局部互动信息表达Y＝(Y¹，Y²，...，Y^k)输入到一个卷积核维度与卷积步长均为l的卷积层，获得压缩序列表达P＝(p₁，p₂，...，p_k)；将获得的压缩序列表达P＝(p₁，p₂，...，p_k)按照如下公式计算获得含有自注意力互动信息的序列表达P′＝(p′₁，p′₂，...，p′_k)，

P′＝Attention(P，P，P)，

其中d_p为压缩序列表达P的维度；

将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′＝(z′₁，z′₂，...，z′_k)，

其中，σ()代表sigmoid函数，

代表以元素方式相乘，

代表权重矩阵，b_g代表偏置向量，S₁代表门比例值；

将获得的混合输出序列表达Z′＝(z′₁，z′₂，...，z′_k)复制l次，获得新的混合输出序列表达Z＝(z₁，z₂，...，z_n)，其中n＝k×l；

其中，σ()代表sigmoid函数，

代表以元素方式相乘，tanh()代表双曲正切函数，

3.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法，其特征在于，所述步骤2)，具体为：

对于对话历史各轮对话表达C＝(C₁，C₂，...，C_N)，其中第i轮对话表达C_i由第i轮的问题表达q_i与第i轮的答案表达a_i组成，将每一轮的问题表达与答案表达，利用步骤1)中所设计的多粒度卷积自注意力处理机制，获取对应的多粒度卷积自注意力处理机制输出序列表达；将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达，利用如下公式，计算得到对应的问题与答案的自注意力句子表达